3.3 基于GMM-HMM的语音识别

语音识别技术解析
一、基本知识

  1. 语音识别系统的基本框架:特征提取+模式匹配
    在这里插入图片描述
  • 解码:基于搜索的模式匹配过程(语音识别的模式匹配是一个序列匹配问题,一般表现为一个搜索过程)。
  • 解码器:实现解码的模块。
  • 解码时所用的两个信息源
    • 声学模型:描述每个音素如何发音。
    • 语言模型:描述单词的组合规律。
  1. 语音识别系统的标准配置:
  • 2010年前:
    (1)特征:Mel倒谱系数(MFCC);
    (2)声学模型:GMM-HMM;
    (3)语言模型:N元文法(N-Gram);
    (4)解码:有限状态转移机(Finite State Transducer, FST)。
  • 今天:语音识别已经过渡到了深度学习阶段,识别系统的基础框架不变,只是特征提取和声学建模的具体技术发生了改变。

二、MFCC特征提取:该特征主要描述与发音内容有关的声道信息,并模拟人耳的听觉特性,增加对低频段信息的敏感度。

三、GMM-HMM声学模型(概率模型)
在这里插入图片描述

  • HMM模型:描述发音动态特性
    动态特性:语音信号在时间顺序上的发展演进过程。
  • GMM模型:描述短时静态特性。
    静态特性:语音信号在某个短时平稳状态(对应HMM模型的一个状态)下的分布规律。
  • 一段语音的生成过程:
  1. HMM模型把发音过程抽象为一个状态序列。从初始状态一步步转移到结束状态,每次转移对应一个转移概率
  2. 在进入某个状态后,以GMM模型为概率分布函数生成属于该状态的所有语音帧。每次语音生成过程都对应一个生成概率
  • 语音信号与模型的匹配程度
    给定一段语音,计算出由该模型生成该语音的概率。

四、N-Gram语言模型

  • 作用:描述语言中词与词的搭配规律。
    e.g. 3-Gram:
    我/吃/水果0.1
    我/吃/鱼0.2
    … …

五、解码过程

  • 解码本质:给定一段语音,在所有可能句子中搜索,找到和该语音最匹配的句子。(考虑两个因素:a. 声学模型对语音信号的生成概率;b. 语言模型给出的词间搭配概率。)
  • 一般搜索策略:剪枝搜索
  1. 语音特征向量依次输入解码器;
  2. 每接收一个新的语音帧,解码器需要考虑加入一个新的音素或单词(搜索空间扩展);
  3. 每次扩展后只保留当前匹配度最高的候选句子。
  • FST(提高解码效率):将一个输入序列(语音帧序列)映射到输出序列(词序列),并将声学模型和语言模型的概率集成到这一映射过程中。
发布了37 篇原创文章 · 获赞 0 · 访问量 770

猜你喜欢

转载自blog.csdn.net/weixin_40680322/article/details/103425317
3.3