语音识别(三)

潘多拉魔盒

参考:http://www.julyedu.com/video/play/104/916

语音识别系统(1990~2010)

20年间,系统做了没有变化,但是有四个重要的技术提升了识别率

1.上下文有关模型

        考虑five和nine两个单词,ai(f,v)和ai(n,n)不一样,英文的音素有50个,

若每个音素都考虑上下文,则状态数目会爆炸(50^3),但是ai(m,n)和ai(n,n)可能一样

2.区分式训练

       EM算法是最大似然估计,区分式训练通过调整目标函数让P(X|W)大,同时让P(X|W1)小,W1为W的竞争者

3.说话人适应

     说话人相关训练

     说话人适应

     说话人适应训练

4.二次打分

解码器先用Bigram语言模型识别得到n-best list或者lattice,再用高级的语言模型代替Bigram对这些句子重新打分

猜你喜欢

转载自blog.csdn.net/wangzhanxidian/article/details/84679750