语音服务技术支持之——语音转写

一、 能力介绍：

语音转写（Long Form ASR）基于深度全序列卷积神经网络，将长段音频（5小时以内）数据转换成文本数据，为信息处理和数据挖掘提供基础。

二、 应用场景：

（1）电话销售&客服

将坐席通话转成文字，帮助电话质检和信息同步，也为数据挖掘提供原料基础。

（2）会议&访谈记录

将会议和访谈的音频转换成文字存稿，让后期的信息检索和整理更方便快捷。

（3）字幕生成

将视频中音频文件进行语音转写，轻松生成与视频相对应的字幕文件。

（4）语音鉴别

可以从转写出的文字结果中搜索匹配相关词类，对黄暴/涉政内容进行高效鉴别。

三、常见答疑：

1.“语音转写 ”与 “语音听写 ”的区别是？

2. “已录制音频转写”和“实时音频流转写”的区别是？

· 已录制音频（recorded audio）转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时；

· 实时音频流（real-time streaming）转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果。可以实现文字和声音的同步展现。