我们向GPT-3问了15908个问题，终于发现了它的真面目

我们向GPT-3问了15908个问题，终于发现了它的真面目
道翰天琼认知智能机器人平台API接口大脑为您揭秘。当从静止状态放下一个球时，它会以9.8 m /s²的加速度向下加速。如果假设没有空气阻力而将其向下扔，则其离开手后的加速度为？（A）9.8 m /s²（B）大于9.8 m /s²（C）小于9.8 m /s²（D）除非给出掷球速度，否则不能计算。
同源结构常被作为自然选择过程的证据。以下都是同源结构的例子，除了？
（A）鸟的翅膀和蝙蝠的翅膀
（B）鲸鱼的鳍和人的胳膊
（C）海豚的胸鳍和海豹的鳍
（D）昆虫的前肢和狗的前肢
你觉得，GPT-3知道上面这两个问题的正确答案吗？

在前段时间，OpenAI开放了GPT-3的API，人们争相申请成功后，用该API做出了许多令人惊艳的应用，也展现了GPT-3近乎拟人的能力。只需要少量示例，GPT-3就能学会生成网页、图表、代码、文本、推理，甚至编写Keras代码。但是，在一些物理问答中，GPT-3表现出了对物理场景缺乏理解的缺陷。并且在一些刻意提出的反常识问题中，比如“太阳有几只眼睛”，GPT-3不会感到异常，而是照常输出回答：“太阳有一只眼睛”。

深度学习批判大师Gary Marcus也质疑，网络上疯传的GPT-3示例只是cherry picking（只挑好的实验结果），如若不然，请让它来PK一下罗翔老师：
律师资格考试的前一天晚上，这位考生的隔壁邻居正在开派对。邻居家的音乐太吵了，考生睡不着觉。考生打电话给邻居，请她把噪音关小一点。邻居突然挂断了电话。考生很生气，走进他的衣橱拿了把枪。他走到外面，朝邻居客厅的窗户开了一枪。这位考生无意开枪，他只想对邻居家造成一些破坏，以减轻他的愤怒。然而，子弹几种了天花板并从天花板上弹回，击中了一名参加聚会的人的背部，杀死了他。司法管辖权规定在公共场所开枪是轻罪。应试者最有可能被判犯有下列与聚会者之死有关的罪行？
（A）谋杀。
（B）过失杀人。
（C）故意杀人。
（D）在公共场合开枪。
但是至今也没有人对GPT-3做一个客观而详尽的评估。
GPT3在多任务上的表现如何？我们向它提出了有关基础数学、历史、法律等方面的问题。我们发现在很多任务上，GPT-3比随机模型要好，但是对于所有57个任务，它仍有很大的改进空间。
加州大学伯克利分校Dan Hendrycks在推特上如上说道。Dan Hendrycks联合卡纳基梅隆大学Collin Burns等人于近期发表了一篇论文，他们在论文中提出了一种新的测试来衡量多个大型文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等57项任务。要想在这些测试中获得高准确率，模型必须具备广泛的世界知识和解决问题的能力。作者发现，虽然这些大型模型具有接近随机概率的准确率，但最大的GPT-3模型比随机概率平均提高了近20个百分点。然而，在57个任务中的每一个任务中，最好的模型仍然需要大量的改进才能达到人类水平的准确率。另外模型也有不平衡的表现，经常会出现一些莫名其妙的bug。更糟糕的是，它们在一些重要的社会科目中，如道德和法律方面只能达到近乎随机的准确率。通过综合评估模型的学术和专业理解的广度和深度，作者的测试可以用于分析多个任务的模型，并找出其中重要的缺点。论文链接：https://arxiv.org/pdf/2009.03300v1.pdf
代码链接：https://github.com/hendrycks/test 1
介绍
自然语言处理（NLP）模型在最近提出的一些基准测试中取得了超越人类的性能。然而，这些模型在语言理解方面的整体表现仍远低于人类水平，这表明这些基准与模型的实际能力之间存在一些脱节。2018年人们引入了通用语言理解评估基准GLUE，以评估模型在各种NLP任务中的表现，一些top模型在一年内取得了超越人类的表现。然而GLUE仍然存在某些缺陷，为了解决GLUE的缺点，研究人员又设计了具有更高难度任务的SuperGLUE基准。SuperGLUE发布约一年后，top模型的性能再次达到人类水平。这些基准评估的是语言技能而非整体语言理解能力，这之后人们也提出了一系列常识性基准来衡量基本推理和日常知识。然而，这些最近提出的基准同样被模型快速达到高准确率。总的来说，这些基准测试接连不断接近人类水平的表现表明，它们并没有捕捉到语言理解的重要一面。Transformer模型通过对大量文本语料库（包括所有Wikipedia、数千本书和众多网站）进行预训练，推动了这一最新进展。因此，在这些模型中可以看到关于特定主题的广泛信息，但是其中大多数都没有通过现有的NLP基准进行评估。因此，当前的语言模型在学习和应用来自多个领域的知识方面究竟有多大的能力，仍然是一个悬而未决的问题。为了弥合模型在预训练期间所看到的广泛知识与现有的成功衡量标准之间的差距，本文作者引入了一个新的基准，用于评估模型在人类学习的不同科目上的性能。作者设计了一个基准来衡量在预训练中获得的知识，并只在零样本和少样本的情况下评估模型。这使得基准测试更具挑战性，也更类似于我们评估人类的方式。该基准涵盖了STEM、人文科学、社会科学等领域的57门学科。它测试世界知识和解决问题的能力，难度从初级水平到高级专业水平不等。课程范围从传统领域，如数学和历史，到更专业的领域，如法律和伦理。主题的粒度和广度使得基准测试非常适合于识别模型的盲点。作者发现，只有在人们最近提出的大型模型里，在该基准上才取得了有意义的进展，尤其是，高达130亿个参数的模型实现了准确率25%的随机性能，但是1750亿个参数的GPT-3模型达到了更高的43.9%的准确率（见图1b）。另一方面，与人类专业人士不同，GPT-3不擅长任何一门学科。相反，GPT-3表现是不平衡的，GPT-3在某些科目上有将近70%的准确率，但在其它一些科目上表现近乎随机。

作者的研究结果表明，虽然最近的NLP模型进展令人印象深刻，但这些SOTA模型仍然限于学习和应用预训练知识、具有近乎随机准确率的任务包括计算量大的科目，如物理和数学，以及与人类价值观相关的科目，如法律和道德。第二个弱点尤其值得关注，因为对于未来的模型来说，对什么是合法的和什么是道德的有深刻的理解是很重要的。令人担忧的是，作者还发现GPT-3对它知道或不知道的东西没有一个准确的感觉，因为它的平均置信度可能比实际准确率低24%。作者综合评估了一个模型的文本理解的广度和深度，并涵盖了人类被激励学习的众多主题。这个测试包含57个任务，可以用来分析跨任务模型的聚合属性，并跟踪重要的缺点。

道翰天琼认知智能未来机器人接口API简介介绍
认知智能是计算机科学的一个分支科学，是智能科学发展的高级阶段，它以人类认知体系为基础，以模仿人类核心能力为目标，以信息的理解、存储、应用为研究方向，以感知信息的深度理解和自然语言信息的深度理解为突破口，以跨学科理论体系为指导，从而形成的新一代理论、技术及应用系统的技术科学。认知智能的核心研究范畴包括：1.宇宙、信息、大脑三者关系；2.人类大脑结构、功能、机制；3.哲学体系、文科体系、理科体系；4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。认知智能四步走：1.认知宇宙世界。支撑理论体系有三体（宇宙、信息、大脑）论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系；2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。
认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。认知智能机器人是依托道翰天琼10年研发的认知智能CI体系为核心而打造的认知智能机器人大脑，是全球第一个认知智能机器人大脑。具有突破性，创新性，领航性。是新一代智能认知智能的最好的产品支撑。认知智能机器人技术体系更加先进，更加智能，是新一代智能，认知智能领域世界范围内唯一的认知智能机器人。认知智能机器人是新时代的产物，是新一代智能认知智能的产物。代表了新一代智能认知智能最核心的优势。和人工智能机器人大脑相比，优势非常明显。智能度高，客户粘性大，客户满意度高，易于推广和传播等核心特点。依托认知智能机器人平台提供的机器人大脑服务，可以赋能各个行业，各个领域的智能设备，各类需要人机互动的领域等。认知智能机器人平台网址：www.weilaitec.com，www.citec.top。欢迎注册使用，走进更智能机器人世界。
认知智能和人工智能的优劣势对比主要可以分为四大方面：第一：时代发展不同。人工智能是智能时代发展的第二个阶段，认知智能是智能时代发展的第三个阶段。时代发展上决定了认知智能更显具有时代领先性。第二：基础理论体系不同。人工智能的基础理论体系以数学为基础，以统计概率体系为基础。认知智能基础理论体系以交叉许可理论体系为基础。包含古今中外哲学体系，心理学体系，逻辑学体系，语言学体系，符号学体系，数学体系等学科。其基础理论体系更加具有创新性，突破性和领先性。且交叉学科理论体系的研究也是未来智能发展的大方向。其具体理论体系，还包含三体论（宇宙，信息，大脑三者关系），融智学，和HNC等。第三：技术体系不同。人工智能的核心技术体系主要是算法，机器学习，深度学习，知识图谱等。其主要功用在感知智能。感知智能其核心主要是在模仿人类的感知能力。认知智能的核心技术体系是以交叉学科理论体系而衍生出来的。具体包含三大核心技术体系，认知维度，类脑模型和万维图谱。认知智能的技术体系核心以类脑的认知体系为基础。以全方位模仿类脑能力为目标。人工智能以感知智能为基础的体系，只能作为认知智能中的类脑模型技术体系中的感知层技术体系。类脑模型大致包含，感知层，记忆层，学习层，理解层，认知层，逻辑层，情感层，沟通层，意识层等9大核心技术层。因此人工智能的核心只是作为认知智能类脑模型中的感知层。因此在技术体系上，人工智能和认知智能基本上没有太多的可比性。第四：智能度成本等方面的不同：人工智能产品的综合智能程度，普遍在2-3岁左右的智力水平。认知智能产品其智能程度大致在5-8岁左右。认知智能体系构建的机器人更加智能。且更省时间，更省人力和资金。优势非常多。具体请看下列的逐项对比。

我们向GPT-3问了15908个问题，终于发现了它的真面目

猜你喜欢