亚马逊Alexa即将推出基于AI的耳语模式

亚马逊Alexa即将推出基于AI的耳语模式

文章来源:ATYUN AI平台 

亚马逊推出了一系列功能,这些功能将通过其Alexa语音平台推向新的和现有的智能扬声器。其中一个是“耳语模式”,这使得Alexa能够通过耳语来回应低声说话。在今天发表的博客文章中,亚马逊Alexa语音系统专家Zeynab Raeesy透露了该功能的AI基础。

大部分工作都在一篇论文“基于LSTM的耳语检测”中详细介绍,该论文将于12月在IEEE口语技术研讨会上发表。

Raeesy表示,“如果你在一个孩子刚刚入睡的房间里,而其他人走进来,你可能会低声说话,表明你正试图让房间保持安静。另一个人也可能开始低语,我们希望Alexa以这种自然,直观的方式对会话线索做出反应。”

Raeesy解释说,使低语言难以解释的原因在于它主要是清音,也就是说,它不涉及声带的振动。与普通语音相比,它在低频带中往往具有更少的能量。

她和同事研究了两种不同神经网络的使用,数学函数层在人脑的神经元之后松散地建模,以区分正常和低声的单词。

两个神经网络在架构上有所不同,一个是多层感知器(MLP),第二个是长期短期记忆(LSTM)网络,它按顺序处理输入,但是在相同的数据上训练。所述数据包括(1)对数滤波器组能量,或记录不同频率范围内的信号能量的语音信号的表示,以及(2)“利用”低声和正常语音之间的信号差异的一组特征。

在测试中,他们发现LSTM通常比MLP表现更好,具有许多优点。正如Raeesy所解释的那样,Alexa的语音识别引擎的其他组件完全依赖于日志滤波器组的能量,并且为不同的组件提供相同的输入数据使整个系统更加紧凑。

然而,这并非一帆风顺,至少在最初阶段。因为Alexa通过短暂的沉默(一种称为“结束指向”的技术)识别命令的结束或回复,LSTM的信心度在话语的尾端下降。为了解决这个问题,研究人员对整个话语的LSTM输出进行了平均分析,最后,丢弃最后1.25秒的语音数据对于保持性能至关重要。

耳语模式将于10月份以美国英语提供。

本文转自ATYUN人工智能媒体平台,原文链接:亚马逊Alexa即将推出基于AI的耳语模式

更多推荐

扩展高质量AI数据标记的基本技巧与提示

Bloomreach:为互联数字体验提供动力

AI分析两种语言变量以预测精神疾病,准确率达93%

开发者都应该了解的SOLID原则(上)

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com
欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:[email protected]

猜你喜欢

转载自blog.csdn.net/whale52hertz/article/details/93190917