智能音箱背后的语音交互技术和无线通信技术

随着智能音箱的普及，每天起床第一句，先给自己打个气，这句话显然已经不符合当前的真实生活，而是该修改为每天起床第一句，语音助手在哪里。不知不觉中人工智能设备已经成为我们生活的一部分。手机24小时开机，和语音设备聊聊天，语音控制电视空调等，这些智能设备的出现让我们的生活变得更方便舒适。

智能设备一般应具备通信、消费电子产品的智能控制、交互式智能控制等功能。而无线通信技术成为了家居智能化的基石，当前市面上的智能家居采用较多的无线通信技术基本有以下几种：zigbee技术、红外技术、蓝牙技术、Wi-Fi技术以及射频技术。这些产品的通信交互就是典型的物联网技术应用。

智能音箱充当智能家居的载体被多家厂商推出。智能音箱是通过语音交互系统实现语言沟通，通过无线通信技术实现空调、电视、灯光等家电控制。那么智能音箱的这两大功能是如何实现的呢？

一次完整的语音交互包含：唤醒（通过设置激活词来唤醒音箱）→自动语音识别（用于将声学语音进行分析，并得到对应的文字或拼音信息）→自然语言处理（用于将用户的指令转换为结构化的、机器可以理解的语言）→反馈分析（处理自然语言处理过程界定的用户意图，做出符合用户预期的反馈）→语音合成（即将从文本转换成语音，让机器说话）这样一套流程。
语音交互系统的流程
假设你向智能音箱发出“查询A到B的机票”的指令，智能音箱的语音交互系统通过语音算法本地处理单元和音频解码单元收集语音、降噪、识别唤醒词、将语音信号转为数字信号，之后将处理后的数字信号上传至云端服务器，云端服务器将进行语音数字编码识别和语义理解，随后通过调用机票预订数据库中的信息传递给智能音箱，智能音箱将上述数字信号通过音效单元还原为语音信号并播放出来。
智能音箱信息查询
这些看似简单的过程中其实存在很多的技术挑战。

在唤醒阶段，普遍做法是通过设置激活词来唤醒音箱，例如：“天猫精灵”，“小爱同学”等。为什么唤醒词普遍是4音节，而不是中国人更习惯的3音节或者2音节？这是因为音节越短，误唤醒的问题就会越严重。

自然语言处理是用于将用户的指令转换为结构化的、机器可以理解的语言。工作逻辑是将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。以“帮我设置一个明天早上8点的闹钟”为例：该指令命中的领域是“闹钟”，意图是“新建闹钟”，词槽是“明天8点”。这样，就将用户的意图拆分成机器可以处理的语言。具体使用过程中我们会发现有时智能音箱存在语音识别错误以及唤醒失败的现象，说明现有的语音交互系统在这些环节的技术方法还有待提升。

当你向智能音箱发出“关闭电灯”的指令，智能音箱通过语音收集、语音识别后将语音数字编码通过云端服务器进行语义理解，并将得到的信息回馈回到家庭路由器，通过路由器广播这条控制指令，智能家居设备拥有各自唯一的IP号，智能家居能够识别指令中是否涉及自身的IP号，最终电灯的插座识别完成后，完成关闭电灯的指令。
智能家居场景

但由于国内智能家居的通讯协议尚未建立，各个品牌体系的产品之间不兼容，目前各大智能音箱厂商只能兼容自己品牌的产品和一些合作品牌的产品，对市场上的电器产品能够兼容的很有限，大大损坏了智能家居电器互联的效果。

目前的智能音箱已经拥有有声资源播放，智能家居控制，生活O2O服务，生活小工具等非常丰富的功能了。但是由于中文的语音交互技术还不成熟，国内智能家居使用率较低，国内智能家居的通讯协议也尚未建立。对于智能音箱以及整个智能家居物联网系统来说还有很大的发展空间。相信随着技术标准的统一及市场需求的增加，以智能音箱作为智能家居的载体，未来智能家居的功能会更加多元，用户体验也会越来越好。

智能音箱背后的语音交互技术和无线通信技术

猜你喜欢