连续语音识别
参考:http://www.julyedu.com/video/play/104/916
其中,和由单词变成句子,为句子的声学模型,为句子的语言模型
1.语言模型
链式法则
P(我爱天安门) = P(我)*P(爱|我)*P(天|我爱)*P(安|我爱天)*P(门|我爱天安)
常见形式 n-gram
每个词只与前n-1个词有关系
Bigram
P(我爱天安门) = P(我)*P(爱|我)*P(天|爱)*P(安|天)*P(门|安)
Trigram
P(我爱天安门) = P(我)*P(爱|我)*P(天|我爱)*P(安|爱天)*P(门|天安)
其他形式:最大熵、神经网络
Bigram是马尔科夫模型
下一个词只与当前词有关系
模型是遍历的,不是单向的
可与单词的声学模型复合
2.大词汇量语音识别
不能为每个单词单独训练HMM
改成为每个音素训练一个HMM(音素有限)
HMM的复合
音素HMM按词典拼接成单词HMM
单词HMM与语言模型复合成语言HMM
训练
给定许多语音和对应的音素串,求模型参数
每个音素串的HMM是单向的,仍用EM算法
解码
给定一门语言的HMM和一条语音,求单词串
用Vitebi算法求最佳路径(beam search剪枝)
最佳路径经过的单词为识别结果
3.语音识别系统(1990~2010)
声学模型: 声音怎样匹配音素(每个音素怎样发音的)
词典:音素怎样组成单词
语言模型:单词怎样组成句子
4.评价指标:词错误率(WER)
计算方法:
将标准答案与识别结果对齐
用插入、删除、替换错误的总数初一标准答案的长度
对齐应使得错误的数最少