未完core(ICASSP 19)EFFICIENT KEYWORD SPOTTING USING DILATED CONVOLUTIONS AND GATING

会议：ICASSP 2019
论文：EFFICIENT KEYWORD SPOTTING USING DILATED CONVOLUTIONS AND GATING
作者：Alice Coucke, Mohammed Chlieh, Thibault Gisselbrecht, David Leroy,
Mathieu Poumeyrol, Thibaut Lavril

ABSTRACT

我们探索端到端无状态时态建模在小足迹关键词识别中的应用，而不是使用内部状态对长期时态依赖进行建模的递归网络。我们提出了一个受序列建模应用中最近成功的扩展卷积启发的模型，允许在资源受限配置中训练更深层次的体系结构。门控激活和剩余连接也被添加，遵循与WaveNet类似的配置。此外，我们还应用了一个自定义的目标标记，该标记从特定的感兴趣的帧中反向传播丢失，因此产生更高的精度，并且只需要检测关键字的结尾。实验结果表明，我们的模型优于使用LSTM细胞的最大池损失训练的递归神经网络，并显著降低了错误拒绝率。基础数据集“Hey-Snips”由2.2K多个不同的说话人记录下来，已经公开提供，以建立一个用于唤醒词检测的开放参考。

INTRODUCTION

关键字搜寻（KWS）旨在检测连续音频流中的预定义关键字或一组关键字。特别地，唤醒词检测是KWS越来越重要的应用，用于启动与语音接口的交互。实际上，这样的系统在资源较少的设备上运行，并不断监听特定的唤醒字。因此，有效的设备上KWS需要实时响应和高精度，以提供良好的用户体验，同时限制内存占用和计算成本。

关键字发现任务的传统方法涉及用于对关键字和背景进行建模的隐马尔可夫模型（HMM）[1]，[2]，[3]。近年来，事实证明，深度神经网络（DNN）可以产生有效的小尺寸解决方案，如[4]中引入的全连接网络首先所示。更高级的架构已成功应用于KWS问题，例如利用局部依赖性的卷积神经网络（CNN）[5]，[6]。他们已经证明了在推理速度和计算成本方面的效率，但是无法用合理的小模型捕获大型模式。最近的工作提出了使用LSTM单元的基于RNN的关键字发现，它可以利用门控机制和内部状态来利用较长的时间上下文[7]，[8]和[9]。但是，由于RNN面对连续的输入流时可能会遭受状态饱和[10]，因此需要定期重置其内部状态。

在这项工作中，我们专注于端到端无状态时间建模，该建模可以利用大环境，同时限制计算并避免饱和问题。通过终端到终端的模式，是指与不需要精确对准音素事先二进制目标直进模型。我们探索了基于一叠膨胀卷积层的体系结构，该结构在比标准卷积有效的范围内有效地工作，同时限制了模型的大小。我们从以前针对文本到语音应用[11]和语音活动检测[10]探索的WaveNet样式架构中得到启发，通过门控激活和残余跳过连接进一步改进了我们的解决方案，但据我们所知从未应用过。在[12]，作者探索了KWS的深度残留网络（ResNets）。ResNet与WaveNet模型的不同之处在于它们不利用跳过连接和选通，而在频域中应用卷积核，从而大大增加了计算成本。

此外，通过实现自定义的“关键字结尾”目标标签来利用我们的模型可以捕获的长期依赖性，从而提高了模型的准确性。选择一个以交叉熵预训练网络初始化的，经过最大池损耗训练的LSTM作为基线，因为它是利用较长时间上下文的最有效模型之一[8]。本文的其余部分分为两个主要部分。第2节介绍了模型的不同组成部分以及标签。第3节着重于在公开可用的“ Hey Snips”数据集1上获得的实验设置和性能结果。

MODEL IMPLEMENTATION

1、System description
声学特征是在25ms的窗口中每10ms从输入音频中提取20维对数梅尔滤波器组能量（LFBE）。使用二进制目标，有关标签的更多详细信息，请参见第2.4节。在解码期间，系统通过平均包含w个平滑帧的滑动上下文窗口的输出来计算平滑后验，该滑动上下文窗口是在实验调整后选择的参数。与多类模型（如[4]，[5]）相反，诸如此处介绍的模型等端到端模型不需要任何后期处理步骤。实际上，当平滑的关键字后验超过预定阈值时，系统触发。

2、 Neural network architecture
WaveNet最初是在[11]中提出的，作为语音合成和其他音频生成任务的生成模型。它包括堆叠的因果卷积层，包裹在带有门控激活单元的残差块中，如图1所示。
在这里插入图片描述
以下内容为简略，看完wavenet再看
1）因果卷积
2）门控激活和剩余连接

3、流推断
除了减小模型大小之外，扩展的卷积还允许网络在推理期间以流方式运行，从而大大降低了计算成本。当接收到新的输入帧时，将使用先前的计算恢复相应的后验，并出于效率目的将其保留在内存中，如图2所示。这种缓存的实现方式可以将每秒浮点运算（FLOPS）的数量减少到适合生产要求的水平。
在这里插入图片描述
4、关键字结束标签
我们的方法是将目标1与给定时间间隔内的帧关联起来，该时间间隔是关键字结束之前和之后的∏t。在dev集上调整∏t的最佳值。此外，应用掩蔽方案，在正样本中丢弃标签窗口外的背景帧。然而，传统的标记方法将目标1与与关键字对齐的所有帧相关联。在这种配置中，无论示例是否只包含关键字的一小部分，模型都有一种倾向，即关键字一开始就触发。我们方法的一个优点是，一旦看到足够多的上下文，网络将在关键字末尾附近触发。此外，我们的标记不需要任何音素对齐，只需要检测关键词的结尾，这是很容易获得的一个VAD系统（只需要标记和不用于推理）。此外，由于掩蔽效应，标签窗口的精确边界没有被学习，使得网络对标签不精确性更加鲁棒。第3.3.2节分析了关键字结束标记和掩蔽的相对重要性。
在这里插入图片描述

EXPERIMENTS

1、Open dataset
该方法在一个crowdsourced close-talk dataset上进行了评估。选择的关键字是“Hey Snips”，发音时两个词之间没有停顿。数据集包含各种英语口音和录音环境。大约记录了11K个叫醒词和86.5K（∼96小时）的负面例子，详情见表1。请注意，与尾迹词发音相比，负样本的记录条件相同，因此产生于同一领域（扬声器、硬件、环境等）。因此，它阻止了模型根据这两类声场相关的声学特征来识别这两类声场。

通过自动删除极端持续时间的样本，或重复出现尾迹字的样本，可以清除正数据。阳性的dev和测试集已被手动清理，以丢弃唤醒词的任何错误发音（例如“Hi Snips”或“Hey Snaips”），使训练集保持原样。通过使用Musan的音乐和噪声背景音频增强样本来模拟噪声条件[13]。在信噪比（SNR）为5dB时，正的dev和测试数据集增加。

完整的数据集及其元数据可用于研究目的2。尽管一些关键词识别数据集是免费提供的，例如语音命令数据集[14]用于语音命令分类，但是在特定的尾迹词检测字段中没有等价的。通过建立一个开放的尾迹词检测参考，我们希望在数据集通常保持私有的高度并发领域促进透明度和再现性。

2、Experimental setup
该网络包括一个初始因果卷积层（滤波器大小为3）和24层门控膨胀卷积（滤波器大小为3）。24个膨胀率是{1、2、4、8、1、2、4、8…}的重复序列。残留连接在每个层之间创建，跳过连接在每个层上累积，最终被馈送到DNN，然后是softmax进行分类，如图1所示。我们将尺寸为16的投影层用于剩余连接，将尺寸为32的投影层用于跳过连接。中所定义的最终关键字-标记间隔的最佳持续时间2.4节是Δ 吨 = 160 毫秒（关键字结尾前15帧和关键字结尾后15帧）。后继者在w smooth = 30帧的滑动上下文窗口上进行平滑处理，也可以在开发集上进行调整。

主要基线模型是LSTM训练的，该模型使用基于最大池的损耗进行训练，并使用交叉熵预训练网络进行了初始化，这是端到端时间模型的另一个示例[8]。最大池损耗的思想是通过从信息量最大的关键字框架（对应关键字的后验次数最多）的反向传播损失，来教导网络在最高置信度时触发。更具体地说，网络是具有128个存储块和尺寸为64的投影层的单向LSTM的单层，遵循与[8]相似的配置，但与建议的体系结构匹配相同数量的参数（请参阅第3.3.1节））。将过去的10帧和将来的10帧堆叠到输入帧。应用了标准的帧标记，但是采用了2.4节中描述的帧屏蔽策略。[8]的作者仅提到了最近几帧的反向传播损耗，但表示LSTM网络在这种情况下的性能较差。相同的平滑策略施加窗口上瓦特光滑 = 8个帧，在数据dev的调谐之后。为了进行比较，我们还从[5]中添加了基础架构trad-fpool3作为CNN变体，该基础架构是具有4个输出标签（“嘿”，“ sni”，“ ps”和背景）的多类模型。在[5]中提出的建议中，这是FLOPS量最低的架构，同时具有与此处研究的其他两个模型相似的参数数量（请参阅第3.3.1节）。

Adam优化方法用于三种模型，其学习速率对于建议的体系结构为10 -3，对于CNN为10 -4，对于LSTM基线为5•10 -5。此外，将梯度范数裁剪为10。用于初始化的比例缩放均匀分布[15]（或“ Xavier”初始化）为这三个模型提供了最佳性能。我们还注意到，LSTM网络对所选的初始化方案更加敏感。
在这里插入图片描述
3、结果
1）系统性能
这三种模型的性能首先通过观察干净和嘈杂（5dB SNR）的阳性样本的误剔除率（FRR）来衡量，该样本的工作阈值为每小时0.5误警报（FAH），这是根据收集到的负数据计算得出的。超级参数在开发集上进行了调整，结果在测试集上进行了报告。表2显示这些数量以及推理期间每秒执行的参数和乘法数。拟议的体系结构产生的FRR低于LSTM（分别为CNN）基线，在干净和嘈杂的条件下减少了94％（分别为95％）和86％（分别为88％）。这三种架构的参数数量相似，但是对于CNN基线，FLOPS的数量要高一个数量级，而在嘈杂的环境中，FRR会变差。图3提供了检测误差权衡（DET）曲线，并显示WaveNet模型在整个触发阈值范围内也优于基线。
在这里插入图片描述
2）Ablation analysis
为了评估所提出体系结构某些特征的相对重要性，我们研究了在所有条件均相同的情况下，分别去除它们后观察到的FRR的差异。表3显示，关键字结束标记对于在固定FAH尤其是在嘈杂条件下改善FRR尤其有用。掩盖阳性样本中的背景帧也有帮助，但幅度较小。与[10]中观察到的类似，门控特别是在嘈杂的条件下有助于改善FRR。我们最终观察到，分别删除残余连接或跳过连接对性能几乎没有影响。但是，如果没有这些联系，我们就无法正确地训练提出的模型。似乎可以肯定的是，至少实施一种旁路策略对于构建更深的网络体系结构至关重要。
在这里插入图片描述

CONCLUSION

本文介绍了一种基于关键字卷积的端到端无状态建模，该模型基于膨胀卷积，残差连接和选通，而WaveNet架构的成功鼓励了选通[11]，[10]。此外，还应用了自定义框架标签，将目标1与位于关键字结尾附近较小时间间隔内的框架相关联。将所提出的架构与LSTM基准进行比较，类似于[8]中提出的架构。由于具有二元目标，因此建议的模型和LSTM基线都不需要后音平滑，也不需要任何音素对齐或后处理。我们还添加了多类CNN基线[5]为了比较。我们已经表明，在公开和研究目的的众包数据集上，在干净和嘈杂的环境中，提出的WaveNet模型均以固定的误报率0.5每小时显着降低了误报率。所提出的模型在此数据集定义的特定领域中似乎非常有效，未来的工作将集中在领域适应方面，如记录硬件，口音或远场设置，以便在新环境中轻松部署。

IMU_Pandade

发布了64 篇原创文章 · 获赞 7 · 访问量 3万+

私信关注