当四款AI大模型遇上考公真题,谁被难倒了?

在当今社会,人工智能(AI)正以不可思议的速度发展,并在各个领域崭露头角,给人们的生活和工作带来许多便利。AI大模型被誉为人类“第二大脑”,成为人们学习、生活、工作的 “智能助手”。

公务员考试在我国教育领域独具特色,受到了众多考生的关注和青睐。众所周知,在公务员考试的过程中,行测真题中以数量关系最难也最耗时,使得考生们备考压力不小。在这样的背景下,用AI大模型来做行测真题,它们能做对吗?

今天,我们来简单测评一下GPT-3.5、GPT-4、文心一言及通义千问在特定的场景下的实际能力究竟如何。

我们选取21年国家公务员考试《行测》真题

某地调派 96 人分赴车站、机场、超市和学校四个人流密集的区域进行卫生安全检查,其中公共卫生专业人员有 62 人。已知派往机场的人员是四个区域中最多的,派往车站和超市的人员中,专业人员分别占 64%和 65%, 派往学校的人员中,非专业人员比专业人员少 30%,问派往机场的人员中,专业人员的占比在四个区域中排名第几?

正确答案:排名第一

第一位AI大模型选手:GPT-4

简介:GPT-4是OpenAI发布的最新一代语言模型,于2023年3月14日正式发布,并通过API和ChatGPT Plus平台向用户开放。

答案:在四个区域中,机场的专业人员占比排名是第1


答案完全正确,过程十分详尽。

第二位AI大模型选手:GPT-3.5

简介:OpenAI于2023年3月1日正式发布GPT-3.5-turbo,它是目前最大规模的预训练语言模型之一,包含超过1亿个参数,可用于各种自然语言处理任务。

答案:在四个区域中排名第2

错误。

第三位AI大模型选手:通义千问

简介:通义千问是阿里巴巴推出的预训练语言模型。它是达摩院自主研发的超大规模语言模型,也能够回答问题、创作文字,还能表达观点、撰写代码。

答案:因此,在四个区域中,专业人员的占比排名为第 4 位

错误。

第四位AI大模型选手:文心一言

简介:文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品,被外界誉为“中国版ChatGPT”,将于2023年3月份面向公众开放。

答案:在四个区域中排名第2

错误。

Beezy点评

1.准确性

GPT-4的回答

通过建立多个方程并进行代数运算,最终得到了机场的专业人员占比排名是第一。整个过程有明确的推导过程,考虑了所有限定条件。过程详尽且答案完全正确。

GPT-3.5的回答

不等式形式的推导不清晰、且错误,没有给出具体实际情况下的求解。

通义千问的回答

通过计算在四个区域的专业人员占比及非专业人员占比,然后求取排名,这个过程中存在明显错误。在计算四个区域的专业人员比例时,通义千问未考虑到不同区域的总人数已知且有限制条件,而直接将比例相加。此回答是错误的。

文心一言的回答

未建立方程,也没有给出详细推导过程,仅仅给出了结论。在准确性上,此回答并不可靠。

2.实用性

从实用性方面出发,GPT-4的回答明确描述了解题思路,并通过方程的建立及化简找到答案。相对于其他回答者,实用性更强。但考虑考公行测有非常强的时间限制,解题需要早1-2分钟内完成,因此,GPT-4可能在奥数方面不占优势。

3.数学逻辑推导

GPT-4的回答有明确的方程建立,符合题意,通过代入及化简,达到求解目的。推导过程较为严谨。

GPT-3.5的回答由于不等式条件的错误,导致其推导不清晰且错误,不符合题目条件。

通义千问的回答虽然有一定的推导过程,但其错误地将比例相加而未考虑实际限制条件,计算过程错误。

文心一言的回答没有建立方程,缺乏严谨的数学推导过程。

综合来看:GPT-4的回答在准确性、实用性和数学推导方面具有较优的表现。GPT-3.5、通义千问、文心一言三个回答的问题分别在于不等式条件错误、计算过程错误和缺乏推导过程。但结合实际考公行测过程中,严苛的时限性质,其实AI大模型未未必能完全达标。

END

猜你喜欢

转载自blog.csdn.net/BeezyShowcase/article/details/130810919
今日推荐