Deepspeech v2版本deepspeech.pytorch中文语音识别笔记 - 代码天地

Deepspeech v2版本deepspeech.pytorch中文语音识别笔记

编程语言 2019-04-29 09:10:51 阅读次数: 0

代码地址https://github.com/SeanNaren/deepspeech.pytorch

中文语音数据库采用thchs30

（1）首先提取data文件下的trn翻译文本，生成包含空格在内的生字表并保存为json格式lexicon.json，是汉字字典，不是拼音，我在这一步卡了很久，后来发现data_loader只能读取单个字符，所以中文识别的词汇表是翻译文本的汉字生字表

（2）生成train.csv，dev.csv，test.csv路径文件,包含wav位置和对应的trn翻译文本位置

（3）修改train.py中的这三个参数，分别是训练集，验证集和生字表

'--train-manifest'

'--val-manifest'

'--labels-path'

（4）data_loader.py读取翻译到的翻译文本是以空格对词进行区别，在实际训练中效果很差，loss值一直降不下来。参考deepspeech v1将翻译文本改为以字加空格的格式

在165行读取翻译文本的时加入两行代码，得到单字+空格+单字.......格式翻译文本

transcript=transcript.replace(' ','')
transcript=''.join([f + ' ' for f in transcript])

（5）进行训练，在30轮迭代后，验证集的wer降至5%左右，cer降至2.5%，在测试集的wer为50%，cer为25%

对thchs30数据集进行分析，发现翻译文本只有1000句，其中训练集包含750句，测试集包含250句，验证集使用的句子与训练集重合，这也解释了为什么在验证集识别结果极好，在测试机集效果极差的原因。数据集样本不够多，训练时出现过拟合，这也是测试集结果不佳的原因。

下面将改用aishell数据集对deepspeech v2进行进一步性能测试。

thchs30生字表和路径生成文件代码

链接：https://pan.baidu.com/s/1GUnsLbVweDrnZnmYdssMYg
提取码：y38d

猜你喜欢

转载自blog.csdn.net/hw200855/article/details/89639304

Deepspeech v2版本deepspeech.pytorch中文语音识别笔记

deepspeech 训练报错

DeepSpeech源码编译及语音识别效果复现

基于tensorflow和deepspeech的中文语音识别模型，训练+部署

Deepspeech安装后输入 deepspeech 显示 command not found

DeepSpeech v1安装与训练

【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2

deepspeech 实现的问题少 libsox.so.2库

deepspeech 2 （百度 2016 论文解读）

deepspeech 1 （百度 2014 论文解读）

gorm v2版本

freyja v2版本发布

tensorflow v1到v2版本的切换

stable diffusion v1及v2版本本地部署方法、踩坑

Ubuntu-通过v2版本的rancher安装部署k8s

Microsoft Graph - V2版本终结点上的Azure AD应用程序

winfrom实现简单计算器V2版本

Tomcat WEB多实例部署脚本V2版本

比ChatGPT更强的星火大模型V2版本发布！

中文语音识别pytorch

kafka集群消息格式之V0版本到V2版本的平滑过渡详解-kafka 商业环境实战

helm v2升级v3版本遇到的疑难杂症

【docker系列】docker compose的v1\v2版本安装及使用上的区别

以太坊私链上面进行部署uniswap交易所（V2版本）

无名创新TIVA LaunchPad V2版本飞控代码阶段性更新日志

重要通知｜关于JumpServer开源堡垒机V2版本产品生命周期的相关说明

使用Kaldi CVTE v2模型进行语音识别测试 2/2

使用Kaldi CVTE v2模型进行语音识别测试 1/2

【cocos2d-js官方文档】二十一、v3相对于v2版本的api变动

【Python&目标识别】Yolo v5-7.0版本中文标签显示方法（附字体链接）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)