- 直接调用librosa做mel谱的变换
signal = soundfile.read(wav_dir, fs)
melspec = librosa.feature.melspectrogram(signal, sr=22050,
n_fft=2048,
hop_length=512, #是skip的长度,不是重叠的长度
n_mels = 64) # mel得到的fbank的长度
logspec = librosa.logamplitude(melspec)#计算log mel
得到的melspec的维度是(n_mel, wav_length)
做一个矩阵转制 melspec.T
fbank经过DCT变换得到的是mfcc
ref: 有比较完整的前端处理方法https://github.com/ZhihaoDU/speech_feature_extractor/blob/master/feature_extractor.py