语音服务技术支持之——语音转写

 
一、 能力介绍:
语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。
二、 应用场景:
(1) 电话销售&客服
将坐席通话转成文字,帮助电话质检和信息同步,也为数据挖掘提供原料基础。
(2) 会议&访谈记录
将会议和访谈的音频转换成文字存稿,让后期的信息检索和整理更方便快捷。
(3) 字幕生成
将视频中音频文件进行语音转写,轻松生成与视频相对应的字幕文件。
(4) 语音鉴别
可以从转写出的文字结果中搜索匹配相关词类,对黄暴/涉政内容进行高效鉴别。
三、常见答疑:
1.“语音转写 ”与 “语音听写 ”的区别是?
2. “已录制音频转写”和“实时音频流转写”的区别是?
· 已录制音频(recorded audio)转写:将预先录制完毕的完整音频文件传输至云端,转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时;
· 实时音频流(real-time streaming)转写:在采集音频的同时,连续上传音频流至云端,转写服务将实时返回文字结果。可以实现文字和声音的同步展现。

猜你喜欢

转载自www.cnblogs.com/catherine9192/p/9187854.html