前言
虽然说目前语音识别,合成这块技术已经很成熟了,没什么可以拓展的地方了,但是还是想自己实现一下在ros下进行语音识别以及熟悉整个流程,感觉还是挺cool的。
目前这块属科大讯飞和百度语音这两公司做的不错,不过还有其他的一些比如:思必驰,捷通华声,云之声,图灵OS等
ros下的语音交互系统,原生态的主要是支持的一个叫cmu sphinx,
支持多种语言,英语和德语都是支持的。
比如苹果手机的siri,它主要是Nuance公司来做的,应该是目前语音这块最前端的公司了,
还有一个叫festival,它是lincx可以简单实现的一个语音交互系统,它是由爱丁堡大学开源的,测试也很简单
还有Ekho(余音)是一个免费、开源的中文语音合成软件。它目前支持粤语、普通话(国语)、广东台山话、诏安客语、藏语、雅言(中国古代通用语)和韩语(试验中),英语则通过eSpeak或Festival间接实现。Ekho支持Linux、Windows和Android平台。
介绍完国外的,下面来介绍国内的,国内的语音识别技术如下:
NLU以前叫NLP,其实是一个东西,叫做自然语言处理(natural language process)
语音唤醒
百度语音唤醒
科大讯飞语音唤醒
语音唤醒(VoiceWakeuper)通过辨别输入的音频中特定的词语(如“讯飞语点”),返回被命中(唤醒)结果,应用通过回调的结果,进行下一步的处理,如点亮屏幕,或与用户进行语音交互等。唤醒资源中含有一个或多个资源,只要命中其中一个,即可唤醒。需下载使用对应的语音唤醒SDK。
语音听写主要API调用流程如下图所示:
思必驰 收费
像如上所述的语音识别方面的公司都提供在线体验功能,感兴趣的可以登录其官网体验一下。效果还是不错的。
语音识别ASR
百度在线语音识别
科大讯飞在线语音识别ASR
云之声在线识别ASR
语义理解
图灵机器人 免费在线使用5000次每天
云之声 在线体验
科大讯飞 免费在线使用体验
捷通华声(灵云在线体验)
语音合成TTS
科大讯飞语音合成TTS
云之声
百度在线语音
捷通华声
接下来的教程会逐渐把这些语音交互流程与ros结合起来,并且在ros上实现。比如语音合成啊,语音识别啊,语义理解啊,让机器人也具备语音交互功能。