市面主要远场语音交互技术架构

为什么Google Home要采用双麦方案,而且大部分智能音箱才用环形六麦?事实上,这是由各家不同的技术架构决定的,当前市面上主要存在三种远场语音交互技术架构。

1、以Google为代表的纯云端技术架构
首先就是以Google为代表的纯云端技术架构,Google并非不想采用麦克风阵列,因为阵列相比双麦方案具有了波束形成的功能,自然就拥有了更好的噪声和去混响能力,当距离较远或者环境复杂的时候依然能够保证远场识别率。但是由于麦克风阵列涉及了前端硬件,这并非Google所擅长,因此Google就希望能通过云端机器学习的方式来达到类似功能。

但是麦克风阵列的阵元较多,产生的数据容量太大,而当前的网络上传带宽严重不足,所以只能权衡选择更少的麦克风。实际上若采用前端方案,大部分场景下单麦克风方案也能达到双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很重要的。

2、以科胜讯为代表的纯前端技术架构
其次就是以科胜讯为代表的纯前端技术架构,双麦降噪实际上是非常成熟的方案,在智能手机和蓝牙耳机上已经广泛应用,但是直接应用到语音交互则需要大量适配工作。纯前端方案的优点就是容易集成到芯片上,缺点就是很难升级以及扩展,这恰好与人工智能不断迭代的趋势不太兼容,也是当前这种方案无法流行的主要原因。

3、以Amazon为代表的前端+云端方案
最后就是以Amazon为代表的前端+云端方案,这种方案是把算法分别放置到前端和云端,根据具体场景可以调配优化,更容易优化性能并扩展功能。这种方案考虑了麦克风阵列与唤醒和识别技术一体化的问题,由于唤醒和识别严重依赖麦克风阵列的算法处理效果,实际上这三种技术是无法完全分割的,特别是麦克风阵列和唤醒技术更是浑然一体。

猜你喜欢

转载自blog.csdn.net/weixin_42509369/article/details/84561593