亚马逊Alexa即将推出基于AI的耳语模式

文章来源：ATYUN AI平台

亚马逊推出了一系列功能，这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是“耳语模式”，这使得Alexa能够通过耳语来回应低声说话。在今天发表的博客文章中，亚马逊Alexa语音系统专家Zeynab Raeesy透露了该功能的AI基础。

大部分工作都在一篇论文“基于LSTM的耳语检测”中详细介绍，该论文将于12月在IEEE口语技术研讨会上发表。

Raeesy表示，“如果你在一个孩子刚刚入睡的房间里，而其他人走进来，你可能会低声说话，表明你正试图让房间保持安静。另一个人也可能开始低语，我们希望Alexa以这种自然，直观的方式对会话线索做出反应。”

Raeesy解释说，使低语言难以解释的原因在于它主要是清音，也就是说，它不涉及声带的振动。与普通语音相比，它在低频带中往往具有更少的能量。

她和同事研究了两种不同神经网络的使用，数学函数层在人脑的神经元之后松散地建模，以区分正常和低声的单词。

两个神经网络在架构上有所不同，一个是多层感知器（MLP），第二个是长期短期记忆（LSTM）网络，它按顺序处理输入，但是在相同的数据上训练。所述数据包括（1）对数滤波器组能量，或记录不同频率范围内的信号能量的语音信号的表示，以及（2）“利用”低声和正常语音之间的信号差异的一组特征。

在测试中，他们发现LSTM通常比MLP表现更好，具有许多优点。正如Raeesy所解释的那样，Alexa的语音识别引擎的其他组件完全依赖于日志滤波器组的能量，并且为不同的组件提供相同的输入数据使整个系统更加紧凑。

然而，这并非一帆风顺，至少在最初阶段。因为Alexa通过短暂的沉默（一种称为“结束指向”的技术）识别命令的结束或回复，LSTM的信心度在话语的尾端下降。为了解决这个问题，研究人员对整个话语的LSTM输出进行了平均分析，最后，丢弃最后1.25秒的语音数据对于保持性能至关重要。

耳语模式将于10月份以美国英语提供。

更多推荐