语音识别框架

一、语音识别框架

传统理论重点研究声学模型，发音字典不用关心，语言模型一般用n-gram

预处理：1. 首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作一般称为VAD。

2. 声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的。

特征提取：主要算法有线性预测倒谱系数（LPCC）和Mel 倒谱系数（MFCC），目的是把每一帧波形变成一个包含声音信息的多维向量；

声学模型（AM）：通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；

字典：字或者词与音素的对应，简单来说， 中文就是拼音和汉字的对应，英文就是音标与单词的对应；

语言模型（LM）：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率；计算所有可能性的概率，求对应的最大概率值的索引。即输出文本。

语音识别流程的举例（只是形象表述，不是真实数据和过程）：

1. 语音信号：PCM文件等（我是机器人）

2. 特征提取：提取特征向量[1 2 3 4 5 6 0 ...]

3. 声学模型：[1 2 3 4 5 6 0]-> w o s i j i q i r n重点

4. 字典：窝：w o；我：w o；是：s i；机：j i；器：q i；人：r n；级：j i；忍：r n；

5. 语言模型：我：0.0786，是： 0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；

计算所有可能性的概率，求对应的最大概率值的索引。

6. 输出文字：我是机器人

原文：https://blog.csdn.net/nsh119/article/details/79360778

二、声学模型

声学模型：某音素组合条件下对应声学特征的概率值。反过来也可以通过概率值求索引，即特征到音素的映射。传统的为HMM-GMM模型，发展为NN，深度NN模型。

下图为声学模型框架。

https://blog.csdn.net/abcjennifer/article/details/27346787

声学模型的输入是由特征提取模块提取的特征（MFCC等）。一般来说，这些特征是多维的向量。由于语音信号特征的分布并不能用简单的概率分布，故而常用混合高斯模型方法对语音信号的分布进行拟合。参数由E-M算法求得。对声音序列O，进行GMM拟合，每一个GMM为HMM的一个状态，计算状态的概率值，通过搜索算法求得最大概率值对应的索引即音素序列。

注：状态的理解。状态通过对声音想、特征序列O进行GMM拟合或者DNN等拟合求得。如果声学模型输出的是音素，状态应该理解为比音素更小的级别，如3个状态对应一个音素；

https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/79069909。如果声学模型输出的是拼音如（zhong），状态应该理解为音素zh和ong等，或者其他声学单元。即状态为构成输出的更低一级别的单元。

中文音素。