语音识别基本原理介绍------dnn-hmm续

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010384318/article/details/40452271

很久没更新博客了,最近找工作找的不是很顺利,我一直很看好语音的应用,觉得需求很多,但或许对应届生还是有些不一样,等确定了再分享下找工作的经验吧。这里主要说下语音识别现在大家都用的模型-----dnn-hmm,我自己也不能更好的去解释清楚,等我毕业前,我一定会把gmm-hmm和dnn-hmm的原理以最能理解的方式表达出来,我也很期待那一天。不多说了,直接说dnn-hmm。目前主流的方式是dnn-hmm,相信国内或者国外的用的都是这个,具体的应用主要参考li deng的这篇文章:Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition。主要的算法我截图下:

这个是在gmm-hmm的模型基础上做的,最基本的也要生成一个tied-state的cd-gmm-hmm模型。然后就可以用上面的算法去做,训练出一个dnn-hmm的模型。然后我也用之前的博客:语音识别系统原理介绍-----dnn-hmm。在训练dnn之前,做了一些预处理,对应算法里的1-4步,也算是一些转换吧。从第5步开始做dnn的预处理,可以看下下面的图。

dnn'的输入是:左4帧+本身这一帧+右4帧,这样组成9帧,mfcc特征是39维,所以是39*9,这里的mfcc主要是去掉idct这一步,主要是dnn可以学到去相关这一步。第一层是GRBM,后面每层是RBM,这样一层一层的训练。然后根据gmm-hmm的对齐,使用后向传播算法对每一帧来做fine-tuning,根据先验概率重新估计转移概率,然后再利用这个继续训练dnn-hmm。基本就是这个训练的过程,如果你有什么问题,欢迎留言提问。

 之前写的博客:

1.语音识别系统原理介绍-----dnn-hmm

2.语音识别系统原理介绍---从gmm-hmm到dnn-hmm

最后,现在一般使用kaldi来做dnn-hmm,当然如果你对htk很熟的话,你也可以基于htk写个dnn,这个资料我之前的博客也有介绍。

猜你喜欢

转载自blog.csdn.net/u010384318/article/details/40452271
今日推荐