说话人识别模型(GMM-UBM)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zongza/article/details/82143278

GMM-UBM概述下载地址 :https://download.csdn.net/download/zongza/10643638

总结

1 声纹能作为判别不同人的依据是什么

每个人的声音都有独特的特征,这个特征由两个音素决定:
1 声腔的尺寸
2 发声器官被操纵的方式(比如声带上的肌肉运动)
这些因素使得声音变得独一无二

2 简述一下说话人识别流程

先进行特征提取,然后训练模型,最后是打分判决.
这其中特征提取包括 预加重,分帧加窗,傅里叶变换得到频谱图,之后再进行mel滤波使频谱图更紧凑,最后进行倒谱分析(取对数和离散余弦变换)和差分(提供一种动态特征)的到MFCC特征向量.

3 什么是混合高斯模型GMM

GMM就是由多个单高斯分布混合而成的一个模型
1 为什么要混合呢,因为单个分布的话拟合能力不够
2 为什么要高斯呢,因为高斯分布有很好的计算性质,因为他有一个自然数e嘛,那很自然就可以取对数将乘法变成加法,同时呢,高斯分布也有很好的理论支撑,从中心极限定理可知,如果采样最够多的话,n个采样的平均值x拔会符合高斯分布,他的均值就是变量的均值,方差等于变量方差/n,那么只要n足够大,就可以用平均数的高斯分布去近似随机变量的高斯分布.

4 什么是通用背景模型UBM

UBM相当于一个大的混合高斯分布模型,他是为了解决目标用户训练数据太少的问题,用大量非目标用户数据训练出一个拟合通用特征的大型GMM

5 什么是最大似然估计

最大似然估计是一种反推,就是你只已经知道模型了,同时你也有了观测数据,但是模型的参数是未知的,这时候我肯定是算不出来准确的参数值的,那我可以把产生当前观测数据的可能性最大的参数当作估计值,这就是最大似然的含义,也就是最大可能性.

6 EM算法

EM算法的关键思想就是迭代求解.他有两个关键的步骤:期望步和最大化,期望的话就是说先用上一轮迭代得到的参数计算出隐性变量(无法直接观测到的变量,比如统计身高分布,某个人是男是女无法观测到)的期望,最大步就是使用最大似然估计和这个期望值来算出新的参数.
在混合高斯模型中,这个隐性变量实际上是描述数据由那个子高斯分布取样得到的,那他的期望实际上就是被某个子分布生成的概率

7 GMM-UBM模型

先使用大量的非目标用户数据训练UBM,然后使用MAP自适应算法和目标说话人数据来更新局部参数得到对应的GMM.
MAP自适应算法相当于先进性一轮EM迭代得到新的参数,然后将新参数和旧参数整合

猜你喜欢

转载自blog.csdn.net/zongza/article/details/82143278