音频视频自动提取字幕(extract subtitle from audios and vedios)

自动提取字幕的功能,在国外视频网站Youtube和社交巨头Facebook都已经上线多年,但国内各类视频和音频站都没有类似的功能,所有花了点时间调研了一下subtitle的自动提取功能:

1. 开源语音识别库,比如Kaldi:
没有足够的语料库,识别效果不好,而且背景音等对识别会产生很大的影响,所以想训练出一个生存环境可用的语音识别软件还是对需要有足够的标定数据,所以讯飞/搜狗/百度等公司的语音识别技术还是存在相当的技术壁垒,一般小公司没足够能力搞出一个来,就只能使用它们的服务了

2. 讯飞语音转写服务JDK
首先JDK调试好以后(目前只支持JAVA平台,下载多次一直有莫名的导入错误,注释掉以后居然也能正常运行,楼主对JAVA不熟,但总算运行起来了),支持多种音频文件的离线上传和下载字幕功能,效果feedback:

  1. 目前效果最好的一款API,调试免费5h,收费10元/小时;
  2. 对背景音的滤除效果还不错;
  3. 而且一些地方口音也能照顾到;
  4. 但是唱歌等一些不那么normal的音频就无能无力了。

3. Google speech 配合 translate API
直接找的一款开源代码,集成的是google的服务 Autosub,github上可以down下来,feedback:

  1. 标准语音和视频和讯飞效果差不多,而且既支持上传语音也支持视频;
  2. 滤出背景音也很nice;
  3. 但是口音没法识别,目前也仅支持有限的zh-CN和zh-TW

所以,总体来时自己搞是不太现实的,用讯飞的语音转写服务是可以优先考虑的选项

猜你喜欢

转载自blog.csdn.net/chijiaodaxie/article/details/78405770