新知mfcc语音识别esp8266继电器开关灯(成为一个DIYer,五)

我们接着讲我们的,有两点好处,继续展开mfcc,先上图,看你能否看出其中的好处:

先看第一幅开

第二幅开

第三幅开:

第四幅开:

能说明问题就好,我们不再上的一系列图了,多了也会烦,你有木有看出其中的好处了呢?我们取样4096字节,256字节一划分,应该有16划分(帧),但我们是每隔128字节(mfcc要求的)取256字节做傅里叶变换的,粗略一算,应该翻一番为32划分(帧),才对啊?

第一个零的好处,观察mfcc第一个分量,若小于零,全部干掉,所以你看到的帧数,已经被零堵在门外了,大多数是无用的头部和尾部,为什么这样说呢?我们上一节每一个有效发音图,基本2048字节就够用了,这是什么意思呢?2048除以256等于16,你可能会说是巧合,你说的没错,实质上在这2048字节中,仍然分头部,中部,尾部,这些有用的头部尾部,在mfcc过程中,有些分帧仍然没有用,但有用帧小于16是没有错的,所以这也是我敢把mfcc第一分量小于零的全部干掉的原因。

第二个关于零的好处,在这剩下的有用帧mfcc的特征中,相当多的小于零,是负数,当你把他置零,虽然粗暴,或许不正确,但对于我来说,识别一般的单字,像开,关,零,一,二,三,四,五等等,已经足够了。

mfcc在做完离散余弦变换后,我们这里取了均值的方法来判断,你会发现有不足,因为从第一分量来看,一个音是有稳态区间的,所以第一分量较小的头和尾,仍然可以去掉,只关注中间稳态的部分即可。

另外,也有去一阶差分二阶差分的,我暂时未去做,教给你了,我的作业到此功德圆满。

你有兴趣mfcc,我就继续展开他。下一节待续。。。

发布了66 篇原创文章 · 获赞 12 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/ganggangwawa/article/details/104352688