ROS实战（一）语音交互系统的学习：初步了解语音交互流程

前言

虽然说目前语音识别，合成这块技术已经很成熟了，没什么可以拓展的地方了，但是还是想自己实现一下在ros下进行语音识别以及熟悉整个流程，感觉还是挺cool的。
目前这块属科大讯飞和百度语音这两公司做的不错，不过还有其他的一些比如：思必驰，捷通华声，云之声，图灵OS等
ros下的语音交互系统，原生态的主要是支持的一个叫cmu sphinx，
这里写图片描述
支持多种语言，英语和德语都是支持的。
比如苹果手机的siri，它主要是Nuance公司来做的，应该是目前语音这块最前端的公司了，

还有一个叫festival，它是lincx可以简单实现的一个语音交互系统，它是由爱丁堡大学开源的，测试也很简单
这里写图片描述
还有Ekho（余音）是一个免费、开源的中文语音合成软件。它目前支持粤语、普通话（国语）、广东台山话、诏安客语、藏语、雅言（中国古代通用语）和韩语（试验中），英语则通过eSpeak或Festival间接实现。Ekho支持Linux、Windows和Android平台。
这里写图片描述
介绍完国外的，下面来介绍国内的，国内的语音识别技术如下：

NLU以前叫NLP，其实是一个东西，叫做自然语言处理（natural language process）

语音唤醒

百度语音唤醒
这里写图片描述
科大讯飞语音唤醒
语音唤醒（VoiceWakeuper）通过辨别输入的音频中特定的词语（如“讯飞语点”），返回被命中（唤醒）结果，应用通过回调的结果，进行下一步的处理，如点亮屏幕，或与用户进行语音交互等。唤醒资源中含有一个或多个资源，只要命中其中一个，即可唤醒。需下载使用对应的语音唤醒SDK。
这里写图片描述