Google发布最新「语音命令」数据集，可有效提高关键词识别系统性能

图源：unsplash

来源 | 雷克世界

编译 | 嗯~是阿童木呀、EVA

导语：在本文中，我们描述了Google最新发布的一个用于帮助训练和评估关键词识别系统的口语词汇组成的音频数据集。讨论了为什么这个任务是一个有趣的挑战，以及为什么它需要一个专门的，与用于对完整句子进行自动语音识别的传统数据集所不同的数据集。

我们提出了一种对该任务进行可重复、可比较的精确度指标度量方法。描述了数据是如何被收集和验证的，它所包含的内容，以及其以前的版本和属性。通过报告在该数据集上训练的模型的基线结果而得出了结论。

一般说来，语音识别研究传统上需要大学或企业等大型机构的资源来进行。在这些机构工作的人通常可以通过与语言数据联盟（Linguistic Data Consortium）等组织达成协议，从而自由地访问并使用学术数据集或者专有的商业数据。

随着语音技术的成熟，想要训练和评估识别模型的人数已经不仅只是这些传统组织群体，但是数据集的可用性并没有被扩展。正如ImageNet和计算机视觉领域中类似的集合所显示的那样，拓宽对数据集的访问可以鼓励跨组织的协作，并使得在不同方法之间能够进行同类比较，帮助整个领域向前发展。

语音命令数据集（Speech Commands dataset）是为一类简单的语音识别任务构建标准训练和评估数据集的尝试。它的主要目标是提供一种方法来构建和测试小模型，这些模型可以从背景噪音或不相关语音中以尽可能少的误报（false positives），从一组10个或更少的目标单词中检测出单个单词的使用时间，这个任务通常被称为关键词识别。

为了覆盖到更广泛的研究人员和开发人员，该数据集已经在“知识共享”（Creative Commons）4.0许可下被发布了出来。这使该数据集能够很容易地被纳入到教程和其他脚本中，可以被下载和使用，而不需要任何用户干预（例如，在网站上注册或向管理员发送电子邮件寻求许可）。该许可证在商业环境中也是众所周知的，因此通常在需要批准的情况下可以由法律团队快速处理。

图1：数据集中每个单词的记录数量

▌相关研究

Mozilla的通用语音（Common Voice）数据集拥有2万名不同的人的超过500个小时的语音，并且可以在“知识共享”Zero许可（类似于公共域）下使用。这个许可证使得构建它非常容易。它由句子对齐，并且是由志愿者通过网络应用程序阅读请求的短语而创建的。

LibriSpeech是一个1000小时的阅读英语演讲集，在“知识共享”4.0许可下发布，并使用受到广泛支持的开源FLAC编码器进行存储。它的标签只在句子级别上对齐，因此缺少词级的对齐信息。这使得它比起关键词识别更适合全自动语音识别。

TIDIGITS包含由300位不同说话者录制的25,000位数字序列，由付费的参与者在安静的房间录制。该数据集只能在来自语言数据联盟的商业许可下使用，并且以NIST SPHERE文件格式存储，这种格式被证实难以使用现代软件来解码。我们关于关键词识别的初始实验是使用该数据集进行的。

CHiME-5拥有在人们家中录制的50个小时的语音记录，存储为16 KHz的 WAV文件，并可以在有限的许可下使用。它在句子级别对齐。

许多语音接口依赖关键词识别来启动交互。例如，你可能会说”Hey Google"或"Hey Siri”开始查询或命令你的手机。一旦设备知道你想要进行交互，就可以将音频发送到Web服务以运行一个仅受商业考虑限制的模型，因为它可以在资源由云服务提供商控制的服务器上运行。虽然交互开始的初始检测想要作为基于云的服务运行是不切实际的，因为它需要始终从所有设备通过网络发送音频数据。这样维护成本会非常高，并且会增加该技术的隐私风险。

相反，大多数语音接口在手机或其他设备上本地运行识别模块。这种连续监听来自麦克风的音频输入，并不是通过互联网将数据发送到服务器，而是他们运行监听所需触发短语的模型。一旦听到可能的触发信号后，就开始将音频传输到Web服务。由于本地模型在不受Web服务提供商控制的硬件上运行，因此设备模型必须尊重硬资源限制。其中最明显的是，通常移动处理器所具有的总计算能力比大多数服务器要低得多，因此为了实现交互式响应，近似实时运行，设备模型的计算所需的计算量必须少于其等效云计算量。

更巧妙的是，移动设备的电池续航时间有限，而且持续运行的任何设备都需要非常节能，否则用户会发现设备的耗电速度太快。这一考虑不适用于插电式家用设备，但这些设备在可以消散多少热量上存在一定的限制，从而限制了本地模型可用的能源数量，并受到诸如能源之星（EnergyStar）等计划的鼓励，尽可能减少其整体用电量。最后需要考虑的是，用户期望设备能够做出快速响应，而网络延迟可能会因环境而变化很大，因此，即使服务器的全部响应延迟，一些命令已收到的初始确认对于获得良好体验也很重要。

这些约束意味着，关键词识别的任务与一旦发现交互后在服务器上执行的语音识别是完全不同的：

关键词识别模型必须更小，所涉及的计算量更少。

它们需要以非常节能的方式运行。

它们的大部分输入是沉默或背景噪声，而不是言语，所以误报必须尽量减少。

大部分语音输入与语音接口无关，因此模型不应触发任意语音。

识别的重要单位是单个单词或短语，而不是整个句子。

这些差异意味着设备内关键词识别和一般语音识别模型之间的训练和评估过程是完全不同的。有一些有发展前景的数据集可以支持通用的语音任务，例如Mozilla的通用语音，但它们不容易适用于关键词识别。

此语音命令数据集旨在满足构建和测试设备上模型的特殊需求，使模型作者能够使用与其他模型相媲美的度量标准来演示其架构的精确度，并为团队提供一种简单的方法通过对相同数据进行训练来重现基准模型。希望这将加速进展和协作，并提高可用模型的整体质量。

第二个重要受众是硬件制造商。通过使用密切反映产品需求的公开可用任务，芯片供应商可以以潜在购买者易于比较的方式展示其产品的精确度和能源使用情况。这种增加的透明度应该会导致硬件更好地满足产品要求。这些模型还应提供硬件工程师可用来优化其芯片的清晰规范，并可能提出模型更改，以便提供更高效的实现。机器学习和硬件之间的这种协同设计可以是一个良性循环，在各个领域之间增加有用信息的流动，而这对双方都有帮助。

图2：使用不同训练数据的Top-One精确度评估结果

该数据集的版本1于2017年8月3日发布，包含1,881位演讲者的64,727条发言。使用V1训练数据对来自TensorFlow教程（基于卷积神经网络的小尺寸关键词识别）中的默认卷积模型进行训练，当对V1的测试集进行评估时，TopOne得分为85.4％。使用本文中所记录的数据集版本2对相同模型进行训练，产生了一个模型，该模型在从V2数据中提取的训练集中Top-One得分为88.2％。在V2数据上进行训练，但是针对V1测试集进行评估的模型得到89.7％的Top-One得分，这表明V2训练数据在精确度上比V1大大提高。图2列出了完整结果。

总而言之，该语音命令数据集对于训练和评估多种模型来说是非常有用的，而第二个版本显示了相较于原始数据的等效测试数据的改进结果。

来源 | arXiv

作者 | Pete Warden

原文链接

https://arxiv.org/pdf/1804.03209.pdf

关注公众账号

【飞马会】

▼