ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

前言

虽然说目前语音识别,合成这块技术已经很成熟了,没什么可以拓展的地方了,但是还是想自己实现一下在ros下进行语音识别以及熟悉整个流程,感觉还是挺cool的。
目前这块属科大讯飞和百度语音这两公司做的不错,不过还有其他的一些比如:思必驰,捷通华声,云之声,图灵OS等
ros下的语音交互系统,原生态的主要是支持的一个叫cmu sphinx,
这里写图片描述
支持多种语言,英语和德语都是支持的。
比如苹果手机的siri,它主要是Nuance公司来做的,应该是目前语音这块最前端的公司了,
这里写图片描述
还有一个叫festival,它是lincx可以简单实现的一个语音交互系统,它是由爱丁堡大学开源的,测试也很简单
这里写图片描述
还有Ekho(余音)是一个免费、开源的中文语音合成软件。它目前支持粤语、普通话(国语)、广东台山话、诏安客语、藏语、雅言(中国古代通用语)和韩语(试验中),英语则通过eSpeak或Festival间接实现。Ekho支持Linux、Windows和Android平台。
这里写图片描述
介绍完国外的,下面来介绍国内的,国内的语音识别技术如下:
这里写图片描述

NLU以前叫NLP,其实是一个东西,叫做自然语言处理(natural language process)

语音唤醒

百度语音唤醒
这里写图片描述
科大讯飞语音唤醒
语音唤醒(VoiceWakeuper)通过辨别输入的音频中特定的词语(如“讯飞语点”),返回被命中(唤醒)结果,应用通过回调的结果,进行下一步的处理,如点亮屏幕,或与用户进行语音交互等。唤醒资源中含有一个或多个资源,只要命中其中一个,即可唤醒。需下载使用对应的语音唤醒SDK。
这里写图片描述

语音听写主要API调用流程如下图所示:
这里写图片描述
思必驰 收费
这里写图片描述
像如上所述的语音识别方面的公司都提供在线体验功能,感兴趣的可以登录其官网体验一下。效果还是不错的。

语音识别ASR

百度在线语音识别
这里写图片描述
科大讯飞在线语音识别ASR
这里写图片描述
云之声在线识别ASR
这里写图片描述

语义理解

图灵机器人 免费在线使用5000次每天
这里写图片描述
云之声 在线体验
这里写图片描述
科大讯飞 免费在线使用体验
这里写图片描述
捷通华声(灵云在线体验)
这里写图片描述

语音合成TTS

科大讯飞语音合成TTS
这里写图片描述
云之声
这里写图片描述
百度在线语音
这里写图片描述
捷通华声
这里写图片描述
接下来的教程会逐渐把这些语音交互流程与ros结合起来,并且在ros上实现。比如语音合成啊,语音识别啊,语义理解啊,让机器人也具备语音交互功能。

猜你喜欢

转载自blog.csdn.net/weixin_40522162/article/details/80427654
今日推荐