2、科大讯飞语音开发--产品介绍

一、产品如下

1、语音合成：

将文字信息转化为声音信息，给应用配上“嘴巴”。我们提供了众多极具特色的发音人（音库）供您选择。其合成音在音色、自然度等方面的表现均接近甚至超过了人声。这种语音合成体验，达到了真正可商用的标准。

2、语音听写：

把语音(≤60秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能。

3、语音转写：

语音转写（Long Form ASR）基于深度全序列卷积神经网络，将长段音频（5小时以内）数据转换成文本数据，为信息处理和数据挖掘提供基础。

4、实时语音转写：

实时语音转写（Real-time ASR）基于深度全序列卷积神经网络框架，通过 WebSocket 协议，建立应用与语言转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果。

5、语音唤醒：

扫描二维码关注公众号，回复： 2718519 查看本文章

设备(手机、玩具、家电等)在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令，即唤醒词)，让处于休眠状态下的设备直接进入到等待指令状态，开启语音交互第一步。

二、Linux语音SDK概述

1、MSC SDK的主要业务功能如下表所示：

名词	解释
语音听写	将一段语音转换成文本，把语音中的文字信息提取出来，并可以优先识别用户手机特有的联系人和个性化数据。
语音合成	将一段文字转换成语音，可根据需要合成出不同音色、语速和语调的声音，让机器像人一样开口说话。
语法识别	判断用户所说的内容是否与预定义的语法相符合，主要用于识别用户是否下达某项指令，使用语法识别前，需要先定义语法。
语义理解	在语音听写基础上，分析理解用户的说话意图，返回结构化的指令信息。开发者可在语义开放平台定义专属的问答格式。
语音评测	通过智能语音技术自动对发音水平进行评价，给出用户综合得分和发音信息。
语音唤醒	即设备（手机、玩具、家电等）在休眠（或锁屏）状态下也能检测到用户的声音，并根据声音提示进行相应操作，开启全语音交互，同时支持唤醒+识别、唤醒+语义的OneShot方案。

致谢