Kaldi学习笔记（四）——thchs30中文在线识别 - 代码天地

Kaldi学习笔记（四）——thchs30中文在线识别

其他 2018-08-20 10:24:06 阅读次数: 0

在前面的笔记中，我们已经训练出thchs30模型。

这篇文章主要介绍如何用训练好的模型识别我们自己的语音。

一、安装portaudio

首先我们cd到tools下面，执行：./install_portaudio.sh

然后在cd到src下面，执行：make ext

二、创建相关文件

从voxforge把online_demo拷贝到thchs30下，和s5同级，online_demo建online-data和work两个文件夹。online-data下建audio和models，audio放要识别的wav，models建tri1，讲s5下/exp/下的tri1下的final.mdl和35.mdl拷贝过去，把s5下的exp下的tri1下的graph_word里面的words.txt和HCLG.fst也拷过去。（使用tri1训练出来的模型）

扫描二维码关注公众号，回复： 2874899 查看本文章

其中，final.mdl是训练出来的模型，words.txt是字典，和HCLG.fst是有限状态机。

三、修改脚本

打开online_demo的run.sh
a)将下面这段注释掉：（这段是voxforge例子中下载现网的测试语料和识别模型的。我们测试语料自己准备，模型就是tri1了）

if [ ! -s ${data_file}.tar.bz2 ]; then
echo "Downloading test models and data ..."
wget -T 10 -t 3 $data_url;

if [ ! -s ${data_file}.tar.bz2 ]; then
echo "Download of $data_file has failed!"
exit 1
fi
fi

b) 然后再找到如下这句，将其路径改成tri1

# Change this to "tri2a" if you like to test using a ML-trained model
ac_model_type=tri2b_mmi
ac_model_type=tri1

c）把识别麦克风语音的代码修改：

online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
--beam=12.0 --acoustic-scale=0.0769 $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

#online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
#--beam=12.0 --acoustic-scale=0.0769 $ac_model/model $ac_model/HCLG.fst \
#$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

d）把识别已经录好的语音代码修改：

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \

ark,t:$decode_dir/ali.txt $trans_matrix;;

#online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
# --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
#scp:$decode_dir/input.scp $ac_model/model $ac_model/HCLG.fst \
#$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
#ark,t:$decode_dir/ali.txt $trans_matrix;;

4. 在线识别

我们把自己要识别的语音放到/online-data/audio里，cd到online_demo下面，执行./run.sh，就开始识别回放了。

可以看到识别效果非常差。

如果想要识别麦克风的语音，可以执行：./run.sh --test-mode live，也是同样的效果

5. tri2,tri3,tri4在线识别

运行tri2(tri3,tri4同理)：把s5下的exp下的tri2b下的12.mat考到models的tri2下，把final.mat考过来（好像是转移矩阵），再拷贝其他相应的文件（同tri1），所以tri2目录下包括如下文件：

在第4步的基础上修改如下内容：

1. 修改ac_model_type

ac_model_type=tri2

2. 修改trans_matrix

ac_model=${data_file}/models/$ac_model_type
trans_matrix="$ac_model/12.mat"
audio=${data_file}/audio

3. 增加--left-context=3 --right-context=3

online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
--beam=12.0 --acoustic-scale=0.0769 --left-context=3 right-context=3 $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 --left-context=3 --right-context=3\
scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
ark,t:$decode_dir/ali.txt $trans_matrix;;

最后执行./run.sh

猜你喜欢

转载自blog.csdn.net/snowdroptulip/article/details/78950038

Kaldi学习笔记（四）——thchs30中文在线识别

Kaldi运行thchs30中文语音识别教程

kaldi中文语音识别_基于thchs30(8)

kaldi中文语音识别_基于thchs30(7)

kaldi中文语音识别_基于thchs30(3)

kaldi中文语音识别_基于thchs30(4)

kaldi中文语音识别_基于thchs30(2)

kaldi中文语音识别_基于thchs30(1)

kaldi中文语音识别_基于thchs30(6)

kaldi中文语音识别_基于thchs30(5)

Kaldi学习笔记（三）——运行thchs30（清华大学中文语料库）

kaldi中跑thchs30

kaldi中文语音识别thchs30模型训练代码功能和配置参数解读

kaldi中运行thchs30流程，文件配置详解

Kaldi中thchs30训练自己数据集的步骤

thchs30运行流程以及在线、离线识别

kaldi使用thchs30数据进行训练并执行识别操作

Kaldi thchs30手札（四）三音子模型（line 71-76)

Kaldi thchs30手札（六）

清华大学中文语音识别数据 THCHS30

thchs30 - online

thchs30流程

Kaldi thchs30手札（七） DNN-HMM模型的训练

Kaldi thchs30手札（五）LDA与MLLT（line 78-85)

Kaldi thchs30手札（三）单音素模型训练（line 62-68)

Kaldi thchs30手札（二）word-graph（line 38-60)

Kaldi thchs30手札（一）特征提取阶段（line 0-33)

Kaldi thchs30手札（八）DAE与TDNN（line 109-115)

Kaldi thchs30代码阅读1—特征提取

Kaldi学习笔记（五）——使用CVTE训练好的SR模型做中文在线识别

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)