第二章 2.4 计算机语音《2022年斯坦福AI指数报告》中文全解读

 

    斯坦福大学的人工智能机构 Stanford Institute for Human-Centered Artificial Intelligence (HAI)发布的这第五版《AI指数报告》(2022)英文版一共230页。为了方便阅读,我将他翻译成中文记录下来,本文仅摘取重要且有趣的部分,且有部分自己的阅读感受和见解,需要阅读原文的请至链接2022年斯坦福AI指数报告-深度学习文档类资源-CSDN下载。

    人工智能指数报告跟踪、整理、提炼和可视化与人工智能相关的数据。这份报告的使命是为政策制定者、研究人员、企业高管、媒体记者提供公正、经过严格审查的全球数据,使得公众对复杂的人工智能领域有更透彻、更细致入微的理解。它旨在成为世界上最可信、最权威的人工智能数据和见解来源。

第二章. 人工智能模型性能

    今年,模型性能章节包含了对人工智能更多技术子领域的分析,包括计算机视觉、语言、语音、推荐、强化学习、硬件和机器人技术。本次调研使用了许多量化测量方法,从常见的人工智能基准算法和对泛化领域调研的大赛挑战,来突出表现那些最佳人工智能模型的发展历程。

概要:

  • 数据,数据,数据:基于实验室基准条件的模型技术结果则越来越依赖于使用更多的训练数据来获得更先进的结果。换言之,模型本身的设计好坏往往差别不大,而更多的训练数据能带来更好的实验效果。截至 2021 年,斯坦福大学AI指标报告中的 10 个基准测试中有 9 个最先进的 AI 系统经过了更多的训练。这种趋势隐隐指引着私营参与者倾向去寻找大量的数据集。
  • 对特定计算机视觉子任务的兴趣日益浓厚:2021 年,研究界在一些具体的计算机视觉子任务上有着更高的兴趣水平,例如医学图像分割和蒙面人脸识别(我的导师张百灵教授在2015年左右就在研究这几个领域的具体任务,我想现在研究界只是有更多来自工程学院和生物学院的教授关心这类识别为他们在特定领域研究带来的创新成果,仅此而已)。例如,2020年前只有 3 篇研究论文针对 Kvasir-SEG 医学成像测试了系统基准。2021 年,有 25 篇研究论文。这种增长表明人工智能研究是在转向更直接、更实际应用的研究。
  • AI 尚未掌握复杂的语言任务:AI 在基本阅读技术基准的性能上已经超过了人类的水平,SuperGLUE 和 SQuAD 等阅读理解基准表现提高了 1%–5%。虽然人工智能系统仍然无法在更复杂的语言任务上达到可媲美人类的表现,例如溯因自然语言推理(aNLI),但差异正在缩小。2019年,人类的表现仅领先 9个百分点(aNLI)。截至 2021 年,这一差距已缩小到  1%。
  • 转向更通用的强化学习:在过去十年中,人工智能系统已经能够掌握一定限制条件下的强化学习任务。这要求系统最大限度地提高某项特定技能的表现,例如国际象棋。顶级国际象棋软件引擎现在比 Magnus Carlsen 的最高 ELO 分数高出 24%。然而,在过去两年,人工智能系统在新环境、更通用的强化学习任务上也提高了129%(Procgen) 。这一趋势预示着人工智能系统未来的发展可以学习更广泛地思考能力。
  • 人工智能变得更实惠、性能更高:自 2018 年以来,训练图像分类系统的成本降低了 63.6%,而训练次数提高了 94.4%。其他 任务也出现训练成本降低、但训练时间加快的趋势:推荐系统,物体检测和语言处理,并有利于更广泛的人工智能商业应用。
  • 机械臂正在变得更便宜:一项人工智能指数调查显示,机械臂的中位数价格在过去六年中下降了 4 倍——从2016 年每只手臂 50,000 美元下降到 2021 年的 12,845 美元。关于机器人的研究变得更容易获得,且负担得起。

2.4 计算机语音

SPEECH RECOGNITION 语音识别

人工智能研究的另一个重要领域是对人类语音的分析、识别和合成。在这个人工智能子领域,AI系统通常根据其识别语音、识别单词并将其转换为文本的综合能力进行评估;还能识别发言人,识别说话的人。现代家庭辅助工具,如Siri,是商业应用人工智能语音技术的众多例子之一。

# 尽管Siri、Cortana等语音识别系统有时候展现出了人工智障而非人工智能,这只能证明在非理想(环境嘈杂、多发言人)的状况下人工智能系统的表现仍有较大提升空间。

语音识别是训练机器识别口语单词,并将其转换为文本的过程。这一领域的研究始于20世纪50年代的贝尔实验室,当时世界被引入了自动数字识别机(名为“奥黛丽”),它可以识别一个人说从0到9的任何数字。从那时起,语音识别已经取得了很长的进步,在过去的十年里,它极大地受益于深度学习技术和丰富的语音识别数据集的可用性。

Transcribe Speech: LibriSpeech (Test-Clean and 、Other Datasets)

LibriSpeech是一个2015年面世的语音转录数据库,包含一系列有声读物时长约 1000小时的 16 kHz英语语音。LibriSpeech中,AI系统被要求将语音转录成文本,然后测量单词错误率,即它们无法正确转录的单词的百分比。

LibriSpeech被细分成了两个数据集。首先,是拥有更高质量录音数据的LibriSpeech Test Clean数据集Test Clean的性能表明了AI系统在理想条件下转录语音的能力。其次,是拥有质量较低录音数据的LibriSpeech Test Other数据集Test Other的性能表明了AI系统在非理想环境中转录表现。

AI系统在LibriSpeech数据集上的表现非常好,以至于似乎正在趋于进入平台期(图2.4.1)。在LibriSpeech数据集上SOTA最先进的结果是2021年达到的,其错误率已经低达 1.4%。对于表现最好的转录模型,每听到 100个单词就正确转录 99个。

Test Other数据集上的性能低于Test Clean,仍然相对较差。Test Other的最新结果是由W2V-BERT模型实现的,这是麻省理工学院和谷歌大脑合作的,错误率为 2.0%。

VoxCeleb

VoxCeleb 是一个用于识别发言对象的大规模人类语音视听数据集,它是将特定语音与特定个体进行匹配的任务。每年,VoxCeleb 的制造商都会举办一次发言者验证挑战。在 VoxCeleb 挑战中,低分数或 EER 等错误率表明AI系统在将发言归因给特定个体时很少出现错误。图2.4.2 绘制 VoxCeleb 原始数据集 VoxCeleb-1 上的性能变化。自2017年以来,VoxCeleb 的性能得到了改善:等错误率为 7.8% 的AI系统,如今错误率低于 1.0%。

EER(Equal Error Rates):常用于语音VAD和KWS任务,指的是预先确定其错误接受率及其错误拒绝率的阈值。当速率相等时,公共值称为相等错误率。该值表明错误接受的比例等于错误拒绝的比例。等错误率值越低,生物识别系统的准确度越高。

猜你喜欢

转载自blog.csdn.net/Mango_Holi/article/details/128218500