【python】计算mel频率可能比你想象的要复杂一点

Mel计算公式

计算mel频率可以直接套用公式,

公式如下,

m = 2595 l o g 10 ( 1 + f 700 ) m = 2595 log_{10}(1+ \frac{f} {700}) m=2595log10(1+700f)

所以实现上如下

import numpy as np
import librosa

def mel_calculate(freq):
    return 2595 * np.log10(1+freq/700)

for f in np.linspace(10,1000,num=10):
    my_mel = mel_calculate(f)
    mel = librosa.hz_to_mel(f)
    print(f"freq {
      
      f}, cal:{
      
      my_mel}, librosa:{
      
      mel}")

为了做结果上的验证,我使用了librosa来核对计算结果。
在这里插入图片描述
但是发现结果居然跟librosa的不一样,这是为什么呢?

查看librosa的官方文档,有关hz_to_mel的使用,其实是有一个参数

在这里插入图片描述
查寻源码发现,只有在htk=True的时候,才使用开头的公式。

下图是hz_to_mel源码部分中htk的判断
hz_to_mel源码部分

那么这个htk是什么含义呢?

什么是htk

在另外一个函数librosa.mel_frequencies的api介绍中,有关于htk的说明

By default, librosa replicates the behavior of the well-established MATLAB Auditory Toolbox of Slaney.
librosa默认使用slaney实现,这是在MATLAB Auditory Toolbox中的实现。
According to this default implementation, the conversion from Hertz to mel is linear below 1 kHz and logarithmic above 1 kHz.
在这种实现下,转换在1千赫以下是线性的,在1千赫以上是对数的
Another available implementation replicates the Hidden Markov Toolkit (HTK) :
另外一种实现来源Hidden Markov Toolkit ,即HTK

然后针对slaney和HTK,这里信号给了两个参考引用连接

Slaney, M. Auditory Toolbox: A MATLAB Toolbox for Auditory Modeling Work. Technical Report, version 2, Interval Research Corporation, 1998.
Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D., Povey, D., Valtchev, V., & Woodland, P. The HTK book, version 3.4. Cambridge University, March 2009.

基本都是20年前的东西了。 但是相比而言,slaney是比HTK稍微新一些的了。

翻阅了一些材料,HTK是针对隐马尔可夫框架做的一个工具包,它有一个在线的htkbook 大部分的介绍也是基于ASR的。

还有一个是Auditory Toolbox,它里面应该就对应着Slaney的实现吧。(没有具体研究)

所以回到开头,如果要匹配到公式实现,所以在参数中需要指定htk=True。即mel = librosa.hz_to_mel(f,htk=True)

猜你喜欢

转载自blog.csdn.net/mimiduck/article/details/126628678
今日推荐