mfcc总结,这个mel三角滤波器分组到底是如何起作用的呢?

先看fft频谱图(这是4096字节取样fft计算,横轴频率是从0到512,后边意义不大,未取,纵轴是振幅),那些我随便画的蓝色线,你有什么联想?:

再看,这绿色线,是否有一种上升后,便逐渐式微的感觉,都是三角形的,这或许也是mel当初和绝大多数人看到的:

如果在振幅上加上一条限制的黑线(振幅门槛限制),黑色线以下很多频率就没有意义了,你看,有用的频率连一半(512/2=256)都占不到:

振幅的大小真是一个烦人的事情,变化很大,你不可能总是这么大的音量吧!取对数,这应该不是mel等人的专利,取对数产生了分贝的概念,他有一个好处,你立马可以看到,A=Math.Log10(10)=1,B=Math.Log10(100)=2,很明显A和B只相差1,而振幅相差很大,如果纵轴变为取对数,即分贝,那么,声音中的高频就会拔高,振幅大的低频就会降下来,振幅差别就变得没那么突兀了,但是fft纵轴没有取对数前,指示出来了你想要的那个区域,上面那个绿色的大三角,我们是否可以合并他呢?mel试了两个公式,来计算这个绿色三角形,假定f0=9,f1=16,f2=25,k属于【9,25】:

第1个公式,H(k)=(k-f0)/(f1-f0),k属于【9,16);H(k)=(f2-k)/(f2-f1),k属于【16,25】,那么\sum \binom{25}{9}|X(k)|^2*H(k)展开会是怎样的呢?(|X(k)|^2是傅里叶快速变换后的振幅能量

\sum \binom{25}{9}|X(k)|^2*H(k)=|X(9)|^2*H(9)+|X(10)|^2*H(10)+...+|X(16)|^2*H(16)+|X(17)|^2*H(17)+...+|X(24)|^2*H(24)+|X(25)|^2*H(25)

=0+|X(10)|^2*1/7+...+|X(15)|^2*6/7+|X(16)|^2*9/9+|X(17)|^2*8/9+...+|X(24)|^2*1/9+0

\sum \binom{25}{9}H(k)=0+1/7+...6/7+1+8/9+...+1/9+0=8!=1

第2个公式,H(k)=2*(k-f0)/[(f1-f0)*(f2-f0)],k属于【9,16);H(k)=2*(f2-k)/[(f1-f0)*(f2-f0)],k属于【16,25】,那么\sum \binom{25}{9}|X(k)|^2*H(k)展开会是怎样的呢?(|X(k)|^2是傅里叶快速变换后的振幅能量

[(f1-f0)*(f2-f0)]=7*16=112;

\sum \binom{25}{9}|X(k)|^2*H(k)=|X(9)|^2*H(9)+|X(10)|^2*H(10)+...+|X(16)|^2*H(16)+|X(17)|^2*H(17)+...+|X(24)|^2*H(24)+|X(25)|^2*H(25)

=2*(0+|X(10)|^2*1+...+|X(15)|^2*6+|X(16)|^2*9+|X(17)|^2*8+...+|X(24)|^2*1+0)/112

\sum \binom{25}{9}H(k)=(2/112)*(1+...+6+9+...+1)=132/112=1.2,取整后\sum \binom{25}{9}H(k)=1

第一种方便,第二种复杂一些,似乎取整后\sum \binom{25}{9}H(k)=1看上去更顺眼,这两种方式,大家可能都会想到,但是,在结果面前仍然很茫然,特征不明显,所以,按第一幅图,主要突出划分三个三角形,特征好像比一个三角形好一些,继续试下去,这是否就是三角滤波器的来源呢?(很明显,图上f1处的振幅能量占比最高,然后向两边滑落,占比减少,直到零,界外无关,这很像一个三角形,三角形内相关,而且∑之后,只用一个值描述了这个三角形内的众多值,这明显是一种简并过滤行为)渐渐你也会发现前面分组要多一些,后面会少的多。很显然,mel三角滤波方式弥补了fft取对数后带来的危害(100变2,10变1,没有了差别)。

但这不是最厉害的,mel发现了那个公式mel=2595*Math.Log10(1+f/700),还有人用mel=1125*Math.Log(1+f/700),这是我们望尘莫及的,这需要多少探索,经验,经历啊!在我国声学专家梁之安声音专著中(听觉感受和辨别的神经机制),好像都未发现这个公式,mel或许也是一个声学专家吧!

以上是mel分组的第一组测试,然后又试了第二组,均有取整后\sum \binom{25}{9}H(k)=1,如果用归纳法,后面的组,应该也是这个结果,程序中我就不试了,有兴趣的可以一试。

以上就是第一个mel分组三角滤波器的全过程,他就是这样起作用的。

发布了67 篇原创文章 · 获赞 12 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/ganggangwawa/article/details/104393532