第二章 2.3 计算机语言《2022年斯坦福AI指数报告》中文全解读

    斯坦福大学的人工智能机构 Stanford Institute for Human-Centered Artificial Intelligence (HAI)发布的这第五版《AI指数报告》(2022)英文版一共230页。为了方便阅读,我将他翻译成中文记录下来,本文仅摘取重要且有趣的部分,且有部分自己的阅读感受和见解,需要阅读原文的请至链接2022年斯坦福AI指数报告-深度学习文档类资源-CSDN下载。

    人工智能指数报告跟踪、整理、提炼和可视化与人工智能相关的数据。这份报告的使命是为政策制定者、研究人员、企业高管、媒体记者提供公正、经过严格审查的全球数据,使得公众对复杂的人工智能领域有更透彻、更细致入微的理解。它旨在成为世界上最可信、最权威的人工智能数据和见解来源。

第二章. 人工智能模型性能

    今年,模型性能章节包含了对人工智能更多技术子领域的分析,包括计算机视觉、语言、语音、推荐、强化学习、硬件和机器人技术。本次调研使用了许多量化测量方法,从常见的人工智能基准算法和对泛化领域调研的大赛挑战,来突出表现那些最佳人工智能模型的发展历程。

概要:

  • 数据,数据,数据:基于实验室基准条件的模型技术结果则越来越依赖于使用更多的训练数据来获得更先进的结果。换言之,模型本身的设计好坏往往差别不大,而更多的训练数据能带来更好的实验效果。截至 2021 年,斯坦福大学AI指标报告中的 10 个基准测试中有 9 个最先进的 AI 系统经过了更多的训练。这种趋势隐隐指引着私营参与者倾向去寻找大量的数据集。
  • 对特定计算机视觉子任务的兴趣日益浓厚:2021 年,研究界在一些具体的计算机视觉子任务上有着更高的兴趣水平,例如医学图像分割和蒙面人脸识别(我的导师张百灵教授在2015年左右就在研究这几个领域的具体任务,我想现在研究界只是有更多来自工程学院和生物学院的教授关心这类识别为他们在特定领域研究带来的创新成果,仅此而已)。例如,2020年前只有 3 篇研究论文针对 Kvasir-SEG 医学成像测试了系统基准。2021 年,有 25 篇研究论文。这种增长表明人工智能研究是在转向更直接、更实际应用的研究。
  • AI 尚未掌握复杂的语言任务:AI 在基本阅读技术基准的性能上已经超过了人类的水平,SuperGLUE 和 SQuAD 等阅读理解基准表现提高了 1%–5%。虽然人工智能系统仍然无法在更复杂的语言任务上达到可媲美人类的表现,例如溯因自然语言推理(aNLI),但差异正在缩小。2019年,人类的表现仅领先 9个百分点(aNLI)。截至 2021 年,这一差距已缩小到  1%。
  • 转向更通用的强化学习:在过去十年中,人工智能系统已经能够掌握一定限制条件下的强化学习任务。这要求系统最大限度地提高某项特定技能的表现,例如国际象棋。顶级国际象棋软件引擎现在比 Magnus Carlsen 的最高 ELO 分数高出 24%。然而,在过去两年,人工智能系统在新环境、更通用的强化学习任务上也提高了129%(Procgen) 。这一趋势预示着人工智能系统未来的发展可以学习更广泛地思考能力。
  • 人工智能变得更实惠、性能更高:自 2018 年以来,训练图像分类系统的成本降低了 63.6%,而训练次数提高了 94.4%。其他 任务也出现训练成本降低、但训练时间加快的趋势:推荐系统,物体检测和语言处理,并有利于更广泛的人工智能商业应用。
  • 机械臂正在变得更便宜:一项人工智能指数调查显示,机械臂的中位数价格在过去六年中下降了 4 倍——从2016 年每只手臂 50,000 美元下降到 2021 年的 12,845 美元。关于机器人的研究变得更容易获得,且负担得起。

2.3 计算机语言

    自然语言处理(NLP)是人工智能的一个子领域,其根源可以追溯到20世纪50年代。NLP涉及到对能够阅读、生成和推理有关自然语言的系统的研究。NLP从一套早期使用手写规则和统计方法的系统发展到一个现在结合了计算语言学、基于规则的建模、统计学习和深度学习的系统。

    本节介绍多个语言任务领域的进展,包括:(1)英语语言理解;(2)文本摘要;(3)自然语言推理;(4)情感分析;(5)机器翻译。在过去的十年里,自然语言处理的技术进步是显著的:采用深度神经网络风格的机器学习方法意味着许多人工智能系统现在可以比许多人类基线更好地执行复杂的语言任务。

目录

第二章. 人工智能模型性能

概要:

2.3 计算机语言

ENGLISH LANGUAGE UNDERSTANDING 英语语言理解

SuperGLUE

Stanford Question Answering Dataset (SQuAD)

Reading Comprehension Dataset Requiring Logical Reasoning (ReClor)

TEXT SUMMARIZATION 文本摘要

arXiv

PubMed

NATURAL LANGUAGE INFERENCE 自然语言推理

Stanford Natural Language Inference (SNLI)

Abductive Natural Language Inference (aNLI) 

SENTIMENT ANALYSIS 情感分析

SemEval 2014 Task 4 Sub Task 2

MACHINE TRANSLATION (MT) 机器翻译

WMT 2014, English-German and English-French

Number of Commercially Available MT Systems



ENGLISH LANGUAGE UNDERSTANDING 英语语言理解

英语的语言理解任务挑战了人工智能系统在不同语境下去理解英语,例如句子理解、YES/NO阅读理解、逻辑推理阅读理解等。

SuperGLUE

SuperGLUE是一个跟踪各语言任务技术进展的简单数字度量(如图2.3.1)。

作为基准库的一部分,人工智能系统在8个不同的任务上进行测试(比如回答YES/NO的问题,确定事件中的因果关系,以及进行常识性阅读理解),然后将它们在这些任务上的表现平均为一个简单的分数。SuperGLUE是GLUE的继承者。GLUE是一个早期用多个任务测试的基准库。  SuperGLUE于2019年5月发布,当时人工智能系统逐渐达到了GLUE的饱和指标,创造了对难度更高的基准库的需求。

在SuperGLUE排行榜头部是SS-MoE模型,其SOTA得分是91.0分(图2.3.2),超过了SuperGLUE基准库开发人员给出的人类性能得分:89.8分。实际上,SuperGLUE取得的进展如此之快,研究人员将需要开发更复杂的自然语言任务来挑战下一代AI系统。

Stanford Question Answering Dataset (SQuAD)

斯坦福问题回答数据集(SQuAD)是阅读理解性能的基准库。该数据集包括来自 536 篇维基百科文章的 107,785 对问答对。SQuAD上的表现是通过F1分数来衡量的,这是AI系统的答案与实际正确答案之间的平均重叠率:分数越高,表现越好。与GLUE的情况一样,人工智能系统在SQuAD上的改进发展得如此之快,甚至在2016年推出SQuAD仅仅两年之后,研究人员就发布了SQuAD 2.0。第二个版本包括了更具挑战性的阅读理解任务,即一组 50,000 个无答案的问题,这些问题以一种看似可回答的方式写成的(图2.3.3)。

2021年底,SQuAD 1.1 和 SQuAD 2.0 的领先得分分别是 95.7 和 93.2(图2.3.4)。尽管这些分数是最SOTA先进的,但比前一年的最高得分有很大的提升(0.4%和0.2%)。这两个SQuAD数据集都显现了一种趋势,即在最初的发布之后立即实现了超过人类性能的分数,然后就是很小的、平台死的增长(拥有超过人类的性能后进入增长平台期)。

Reading Comprehension Dataset Requiring Logical Reasoning (ReClor)

在SQuAD等基准库上的稳定进展表明NLP模型需要在像ReClor那样更复杂的语言挑战上进行测试。ReClor由新加坡国立大学的计算机科学家于2020年创建,它要求人工智能系统参与阅读理解,这也需要逻辑推理。ReClor数据集由来自LSAT的逻辑推理问题组成,这是美国和加拿大法学院的入学考试(图2.3.5)。

ReClor有两组问题集,简单的问题集和困难的问题集。AI系统根据正确回答问题的百分比来判断准确性(图2.3.6)。尽管AI系统目前能够在简单的问题集上实现相对较高的性能水平,但它们在困难的问题集上的表现却很差劲。2021年,ReClor困难的问题集上表现最好的模型得分69.3%,比在简单的问题集上表现最好的模型低了约22.5个百分点。像ReClor这样的数据集表明,尽管NLP模型可以执行直截了当的阅读理解任务,但当这些任务与逻辑推理的需求相结合时,它们将面临更大的困难。

TEXT SUMMARIZATION 文本摘要

文本摘要是在合成一段文本的同时提炼其核心内容的一个挑战。摘要文本是文本分类、阅读理解和信息传播的重要组成;然而,当由人类手工完成时,它是时间和劳动密集型的。开发能够在功能上总结文本的AI系统有许多实用的用例,从帮助大学对学术论文进行分类到帮助律师生成案例摘要。

文本摘要的进展通常是计算ROUGE(Recall-Oriented Understudy for Gisting Evaluation)的得分。ROUGE计算了由AI系统生成的摘要和由人类生成的参考摘要之间的重叠域。ROUGE得分越高,重叠域越大,文章总结得就越准确。

arXiv

ArXiv是一个文本摘要基准数据集,包含来自ArXiv科学论文库公开获取的超过 27,770 篇论文。在对arXiv进行基准测试以来的五年里,AI文本摘要模型的性能提高了47.1%(图2.3.7)。然而,就像其他自然语言基准库一样,进展似乎正在进入平台期。

PubMed

PubMed是一个文本摘要数据集,由来自PubMed科学论文数据库的 19,717 份科学出版物组成。PubMed的进展验证了arXiv的趋势:自2017年以来,文本分类任务有了显著的改善(34.6%),但最近该进展的速度已经放缓(图2.3.8)。2021年,在PubMed上表现最好的模型是HAT(hierarchical attention transformer model),由Birch AI和华盛顿大学的研究人员建设。

NATURAL LANGUAGE INFERENCE 自然语言推理

自然语言推理的任务是确认在给定前提的情况下一个假设是否是正确的(entailment 隐喻的)、错误的(contradiction 矛盾),还是未确定的(neutral 中性的)。这种技能也被称为文本隐喻理解,因为它需要明确特定的前提是否包含一个逻辑假设。自然语言推理需要语言处理技能,如命名实体识别(理解你看到的单词),以及能够使用常识性知识来区分合理和不合理的推理。

Stanford Natural Language Inference (SNLI)

Stanford Natural Language Inference(SNLI)数据集包含大约60万对句子(前提和相关假设),这些句子对被标记为隐喻的、矛盾的或中性的。作为这一挑战的一部分,AI系统被问到该前提是否包含一个逻辑假设(图2.3.9)。SNLI的表现是基于正确回答问题的百分比来衡量的。

在SNLI上表现最好的模型是Facebook AI USA的EFL,它在2021年4月发布了93.1%的分数(图2.3.10)。

Abductive Natural Language Inference (aNLI) 

Abductive Natural Language Inference (抽象自然语言推理)是一种更困难的文本隐喻理解问题。抽象推理需要从有限的信息和不确定的前提下得出最可信的结论。例如,如果珍妮下班回来发现她的家凌乱不堪,随后记起来她开了一扇窗户,她由此可以推断是一个窃贼闯入并造成了混乱。虽然抽象推理被认为是人类相互交流的基本因素,但很少有人试图去研究AI系统的抽象理解能力。

ANLI是由艾伦人工智能研究所于2019年创建的抽象自然语言推理的新基准库,它包含了17万个前提和假设对。图2.3.11例举了数据集中包含的语句类型。

自2019年以来,人工智能在抽象常识推理方面的性能提高了7.7个百分点;然而,顶级的人工智能系统虽然很接近,但却无法达到人类在这一任务上的表现水平(图2.3.12)。因此,抽象推理对人工智能系统来说仍然是一项具有挑战性的语言任务。

 

SENTIMENT ANALYSIS 情感分析

情感分析是使用NLP技术来区分给定文本的情绪(非常消极、消极、消极、中立、积极、非常积极)的任务。如果句子的措辞清晰明确了,比如“我不喜欢冬天的天气”,其中的情感分析就会很简单。然而,当AI系统遇到具有反转结构或否定含义的句子时,情感分析会变得更具挑战性,比如“说不喜欢冬天的天气不是我的事情是完全不准确的。”情感分析有许多商业用例,从解析客户评论和现场调查回答到识别客户的情绪状态。

SemEval 2014 Task 4 Sub Task 2

SemEval 2014 Task 4Sub Task 2是一个情感分析的基准库,它要求机器能够进行情感分析。这个特定的任务测试的是AI系统是否能够识别与文本的特定方面相关的情绪,而不是整个句子或段落的情绪(图2.3.13)。

SemEval数据集由7686条对餐厅和笔记本电脑的评论组成,它们的情感极性已经被人类评价过。针对SemEval,AI系统的任务是为文本中的特定短语分配正确的情绪标签,它们的性能以它们正确分配的标签的百分比来衡量。

在过去的七年里,AI系统在情感分析方面的表现变得更好了。截至去年,表现最好的系统正确估计了9/10次。而在2016年,他们只正确估计了7/10。截至2021年,SOTA的成绩为 88.6%,由华南师范大学和联易融科技 Linklogis 的中国研究团队实现(图2.3.14)。

MACHINE TRANSLATION (MT) 机器翻译

机器翻译研究了AI软件如何提供翻译功能的。在需要流利使用多种语言的领域,机器翻译可能具有极大的影响力。例如,欧洲联盟必须将其所有跨国政策文件翻译成其成员国的24种语言。使用机器翻译器可以节省时间、提高效率、并提供上下文一致的翻译内容。

自2017年以来,神经网络已经接管了机器翻译的业务。与之前的模型不同,神经网络翻译者从一系列之前的翻译任务中学习,并预测一连串单词的可能性。神经翻译模型已经彻底改变了机器翻译领域,不仅因为它们不需要人类的监督,还因为它们产生了最准确的翻译。因此,它们已经被搜索引擎和社交网络广泛部署。

WMT 2014, English-German and English-French

WMT 2014 数据集家族于2014年在计算语言学协会会议(ACL)上首次引入,包括不同类型的翻译任务,包括英法和英德语对之间的翻译。机器的翻译能力是通过双语评估替补,或BLEU分数来衡量的,该分数用来比较机器翻译的文本与人类生成的参考翻译匹配的程度。分数越高,翻译效果就越好。

英-法语和英-德语WMT 2014基准集都能反映出过去十年在人工智能机器翻译中取得的重大进展(图2.3.15)。英法语翻译能力提高了23.7%,英德语翻译能力提高了68.1%。相对而言,虽然英德语翻译组的性能提高更为显著,但英法翻译组的绝对翻译能力仍然明显更高。

Number of Commercially Available MT Systems

对机器翻译日益增长的兴趣也反映在商业机器翻译服务的兴起上,如谷歌翻译。根据Intento的数据,自2017年以来,市场上商用机器翻译人员的数量增加了近 5 倍(图2.3.16)。2021年,我们还引入了三种开源的机器翻译服务(M2M-100、mBART和OPUS)。公开可用的高功能机器翻译服务的出现表明了这类服务的可获得性,对任何经常依赖翻译的人来说都是个好兆头。

猜你喜欢

转载自blog.csdn.net/Mango_Holi/article/details/128174160
今日推荐