2、科大讯飞语音开发--产品介绍

一、产品如下

1、语音合成:

将文字信息转化为声音信息,给应用配上“嘴巴”。我们提供了众多极具特色的发音人(音库)供您选择。其合成音在音色、自然度等方面的表现均接近甚至超过了人声。这种语音合成体验,达到了真正可商用的标准。

2、语音听写:

把语音(≤60秒)转换成对应的文字信息,让机器能够“听懂”人类语言,相当于给机器安装上“耳朵”,使其具备“能听”的功能。

3、语音转写:

语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。

4、实时语音转写:

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果。

5、语音唤醒:

扫描二维码关注公众号,回复: 2718519 查看本文章
设备(手机、玩具、家电等)在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令,即唤醒词),让处于休眠状态下的设备直接进入到等待指令状态,开启语音交互第一步。


二、Linux语音SDK概述

1、MSC SDK的主要业务功能如下表所示:

名词 解释
语音听写 将一段语音转换成文本,把语音中的文字信息提取出来,并可以优先识别用户手机特有的联系人和个性化数据。
语音合成 将一段文字转换成语音,可根据需要合成出不同音色、语速和语调的声音,让机器像人一样开口说话。
语法识别 判断用户所说的内容是否与预定义的语法相符合,主要用于识别用户是否下达某项指令,使用语法识别前,需要先定义语法。
语义理解 在语音听写基础上,分析理解用户的说话意图,返回结构化的指令信息。开发者可在语义开放平台定义专属的问答格式 。
语音评测 通过智能语音技术自动对发音水平进行评价,给出用户综合得分和发音信息。
语音唤醒 即设备(手机、玩具、家电等)在休眠(或锁屏)状态下也能检测到用户的声音,并根据声音提示进行相应操作,开启全语音交互,同时支持唤醒+识别、唤醒+语义的OneShot方案。


致谢

1、科大讯飞Linux开发文档


猜你喜欢

转载自blog.csdn.net/qq_38880380/article/details/81025042