文心一言和讯飞星火全面对比测试：（三）常识问题

企业开发 2023-07-02 03:50:21 阅读次数: 0

前文回顾：

在（一）语言理解能力测试中，我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取，测试结果表明：在语言理解能力上：除了有些问题他拒绝回答之外，讯飞星火的表现明显要好于文心一言，可以说很接近ChatGPT3.5的水平。

在（二）任务完成能力中，我们测试了模型对表格的处理能力，完成了藏头诗，拟定了跑步计划，总体发现，两个模型在这方面的能力上表现一般。

今天我们来测试两个模型在常识问题上的能力。

1.测试内容设计

知识型测试体现了大模型背后强大的知识存储和理解能力，这部分能力可以直接帮助人类快速解答问题。我们这里既包括包括了较简单的常识类和也包括了较复杂的专业类知识。尤其在专业知识上，我们还通过描述一些现象，让模型运用专业知识去解答。这种逆向测试可以体现模型对知识的理解力。

测试包括：

1.客观常识事实（高中和大学生了解的）：比较客观的事实性问题，主要看是非对错

2.主观常识：相对主观的问题，主要看模型回复的合理性逻辑性和质量

3.因果推断：简单的因果关系

4.事实错误：提问中本身就有错误，看模型是否能发现

2.客观事实

我们选取一些我比较熟悉的地理、历史、天文、文学等方面的小问题，测试准确性。

用例1：地球上海拔第3的山峰是哪座？

文心一言：

讯飞星火：

chatGPT

根据我的了解，应该是文兴一言对了，其他都错了。

用例2：在中国古代，宋神宗指的是谁，历史上记载他那一年去世的？

文兴一言：

讯飞星火：

chatGPT

第一问：第六位皇帝赵顼，都答对了，讯飞星火错了时间，ChatGPT虽然时间对了，但是画蛇添足的杜撰了一个“仁宗治平元年令”，

用例3：太阳系有几个行星，根据离太阳的距离从近至远分别是？

文兴一言

讯飞星火：

ChatGPT：

不错，不错，都对了！

3.主观常识

用例1：你认为当前最好的足球运动员是谁？

文心一言：

讯飞星火：

chatGPT：

三位回答都很不错，很显然，讯飞星火的训练数据比较新，因为他提到了哈兰德。

4.因果推理

用例1：这是一道公务员的考题：

文兴一言：

讯飞星火：

ChatGPT：

这里，感觉文心一言和讯飞星火都没有理解题目的意思，chatGPT的回答是正确的。

用例2：同样的公考逻辑推理题：

文心一言：

讯飞星火：

ChatGPT：

在这轮，文心一言和ChatGPT完成了测试，但是讯飞星火没有完成。

5.事实错误

这个测试比较的特别，就是提问者的问题本身是错误的，看AI能不能指出来，这个很重要，可以避免使用者在一开始就是错误的。

用例1：关公战秦琼

文心一言：

讯飞星火：

ChatGPT：

用例2：林黛玉倒拔垂杨柳

文心一言：

讯飞心火：

ChatGPT：

回答都差不多，不同的是文心一言居然拔起来了，其他两个看着还想像是林妹妹。

4.总结

今天的测试测试了一些常识性的问题，一些逻辑推理的问题，还有AI当面对完成错误的问题的反应。
对于常识性的问题，回答不够满意，不知到具体的原因，在逻辑推理上，文心一言和讯飞星火都要比ChatGPT差不少。最后，面对错误的问题，AI本着你胡说八道，我就更胡说八道的理念，基本上的就是错上加错。

猜你喜欢

转载自blog.csdn.net/m0_37771865/article/details/131040840

文心一言和讯飞星火全面对比测试：（三）常识问题

文心一言和讯飞星火全面对比测试：（五）编程能力

文心一言和讯飞星火全面对比测试：（一）语言理解能力

讯飞星火_VS_文心一言

文心一言和ChatGPT对比

讯飞星火、文心一言和通义千问同时编“贪吃蛇”游戏，谁会胜出？

LLM系列 | 03：实测讯飞星火、文心一言、bing chat和chatgpt

文心一言没有体验上，看看讯飞星火认知大模型

[LLM+AIGC] 01.应用篇之中文ChatGPT初探及利用ChatGPT润色论文对比浅析（文心一言 | 讯飞星火）

文心一言测试

文心一言和chatgpt

文心一言 VS 讯飞星火 VS chatgpt （42）-- 算法导论5.4 6题

文心一言 VS 讯飞星火 VS chatgpt （52）-- 算法导论6.2 4题

文心一言 VS 讯飞星火 VS chatgpt （51）-- 算法导论6.2 3题

文心一言 VS 讯飞星火 VS chatgpt （49）-- 算法导论6.2 1题

文心一言 VS 讯飞星火 VS chatgpt （43）-- 算法导论5.4 7题

讯飞星火 VS 文心一言：谁是中文大语言模型的TOP1？

文心一言 VS 讯飞星火 VS chatgpt （48）-- 算法导论6.1 6题

文心一言 VS 讯飞星火 VS chatgpt （50）-- 算法导论6.2 2题

文心一言 VS 讯飞星火 VS chatgpt （72）-- 算法导论7.1 3题

文心一言 VS 讯飞星火 VS chatgpt （71）-- 算法导论7.1 1题

文心一言 VS 讯飞星火 VS chatgpt （70）-- 算法导论6.5 9题

文心一言 VS 讯飞星火 VS chatgpt （73）-- 算法导论7.1 4题

文心一言 VS 讯飞星火 VS chatgpt （74）-- 算法导论7.2 2题

KIMI爆了！对比文心一言和通义千问它到底有多强？

ChatGPT与文心一言对比思考

都别吹牛逼了，2个英语指令简单评测便知ChatGPT、博弈Ai、文心一言、通义千问、讯飞星火真实水平

文心一言与GPT-4比对测试！

【AI】文心一言测试指引

文心一言代码能力测试：文心一言能否取代程序员？

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)