语音识别(二)

连续语音识别

参考:http://www.julyedu.com/video/play/104/916

其中,W^{*}W由单词变成句子,P(X|W))为句子的声学模型,P(W)为句子的语言模型

1.语言模型

链式法则

       P(我爱天安门) = P(我)*P(爱|我)*P(天|我爱)*P(安|我爱天)*P(门|我爱天安)

常见形式 n-gram

每个词只与前n-1个词有关系

       Bigram

      P(我爱天安门) = P(我)*P(爱|我)*P(天|爱)*P(安|天)*P(门|安)

      Trigram

      P(我爱天安门) = P(我)*P(爱|我)*P(天|我爱)*P(安|爱天)*P(门|天安)

其他形式:最大熵、神经网络

Bigram是马尔科夫模型 

        下一个词只与当前词有关系

        模型是遍历的,不是单向的

可与单词的声学模型复合

2.大词汇量语音识别

不能为每个单词单独训练HMM

       改成为每个音素训练一个HMM(音素有限)

HMM的复合

      音素HMM按词典拼接成单词HMM

      单词HMM与语言模型复合成语言HMM

训练

     给定许多语音和对应的音素串,求模型参数

     每个音素串的HMM是单向的,仍用EM算法

解码

      给定一门语言的HMM和一条语音,求单词串

      用Vitebi算法求最佳路径(beam search剪枝)

      最佳路径经过的单词为识别结果

3.语音识别系统(1990~2010)

声学模型: 声音怎样匹配音素(每个音素怎样发音的)

词典:音素怎样组成单词

语言模型:单词怎样组成句子

4.评价指标:词错误率(WER)

计算方法:

     将标准答案与识别结果对齐

     用插入、删除、替换错误的总数初一标准答案的长度

     对齐应使得错误的数最少

猜你喜欢

转载自blog.csdn.net/wangzhanxidian/article/details/79874501
今日推荐