情感语音识别的入门解析

关于情感语音识别领域的研究距今已有二三十余年的历史。不管是情感语音识别，还是语音情感识别，含义是一样的，都是对带有情感的语音信号进行情感的正确判断。最传统的情感语音识别是基于机器学习下的有监督学习完成的。有监督，即：使用训练集训练处一个模型，然后使用该模型对测试集中的语音信号进行情感状态的正确判断。

传统的机器学习可以理解为模式识别，即需要通过三个环节来完成操作：数据库、特征参数、识别网络。这三个环节均有大量的文献介绍，其中特征参数这一环节衍生出了很多研究方向，比如：特征选择、特征优化等。

就情感语音识别系统而言

一、数据库的选择有：德国的EMO-DB德语情感语音库、英国的Belfast英语情感语音库、中科院CASIA汉语情感语音库，还有就是某些研究情感语音的高校实验室自主录制的语音库，比如：太原理工大学张雪英老师团队录制的TYUT1.0版本和TYUT2.0版本、北京航空航天大学（这个是阅读文献看到的）。

二、常用的特征参数有：韵律特征、音质特征、基于谱的相关特征。注意：近几年提出的非线性特征（这些特征是基于语音信号发声机制中存在的非线性特性提出的）相较于传统的声学特征有它独有的优势。

①、较典型的韵律特征有：语速、能量、平均过零率、基音频率等；

②、最典型的音质特征是：共振峰，这类特征有很好的识别效果；

③、最典型的基于谱的特征是：MFCC特征（梅尔倒谱系数），这个是经典中的经典，但凡研究语音信号的就应该掌握这一特征。

④、非线性特征（建议阅读和引用：孙颖、叶吉祥的文献）

关于特征类型知道有哪些了，接下来就需要了解提取特征的流程：预处理---特征提取---计算特征参数的统计量

（1）预处理：分为三步（端点检测、预加重、加窗分帧）

端点检测的目的是：检测有效声音段的起始点与结束点，以去除无效声音段，从而提高语音信号的处理效率；

预加重的目的是：增加语音信号中高频段的分辨率，以去除口唇辐射的影响；

加窗分帧的目的是：语音信号本身是非平稳的，但是又兼具短时平稳的特点，因此将语音信号分成一小段将此看作平稳信号来处理。这里的分段可以理解为是：分帧，为了全面完整的分析语音信号，要有帧移（这里的理解与图像处理的滑动窗很类似）

（2）提取特征，以：语速、能量、平均过零率、基音频率为例介绍。

语速是对一段语音进行的计算；

能量、平均过零率、基音频率都是在整段语音信号的每一帧上进行的计算，故语音信号划分为多少帧，计算获得到少组数据（这些数据就是某一段语音信号的特征参数）；

（3）统计量的计算：对于上述单个微观值，宏观量是没有意义的。相对于微观量的统计平均性质的宏观量称为统计量。

上述特征参数是以帧为单位进行提取的，需要以全局特征统计值的形式参与情感的识别。集全局统计指标有：平均值、极值、极值范围、方差、偏度、峰度、一阶导数或二阶导数等。

三：识别网络：常用的识别网络有：隐马尔可夫模型HMM、高斯混合模型GMM、支持向量机SVM、人工神经网络ANN。

入门级别建议使用SVM调通程序，这个最简单直接、好理解。

输入：每一类测试集的特征数据、类别标签，训练获得模型之后，再使用测试集进行情感类别的判断。

所谓的识别率=某一类情感（高兴）正确判断的语句/输入（高兴）测试集的全部语句。

比较适合入门参见的文献有：韩文静老师、赵力老师的综述性文章都很不错！易懂

推荐书籍（适合零基础入门语音识别）：

张雪英《数字语音处理及MATLAB仿真》，有两个版本，后一版本是前一版本的更新。建议看版本2。

福利：偶尔发现版本1的电子版地址：https://zhidao.baidu.com/share/3ec7e505dd3d5d1f94a552b055046070.html

情感语音识别的入门解析

猜你喜欢