潘多拉魔盒
参考:http://www.julyedu.com/video/play/104/916
语音识别系统(1990~2010)
20年间,系统做了没有变化,但是有四个重要的技术提升了识别率
1.上下文有关模型
考虑five和nine两个单词,ai(f,v)和ai(n,n)不一样,英文的音素有50个,
若每个音素都考虑上下文,则状态数目会爆炸(50^3),但是ai(m,n)和ai(n,n)可能一样
2.区分式训练
EM算法是最大似然估计,区分式训练通过调整目标函数让P(X|W)大,同时让P(X|W1)小,W1为W的竞争者
3.说话人适应
说话人相关训练
说话人适应
说话人适应训练
4.二次打分
解码器先用Bigram语言模型识别得到n-best list或者lattice,再用高级的语言模型代替Bigram对这些句子重新打分