人工智能(AI)入门---傅里叶语音识别项目(全家福)

通过前面的介绍,我们傅里叶语音识别项目的技术已经全部到位,这一节贴出全家福,看一看图像,捋清思路,知道怎么去做,以供参考,第一幅:假fft1920(假wu音),这里加载的是yi(壹)音的特征头,fft(快速傅里叶变换必须是2^N次方,1920不是),另外傅里叶离散变换dft图是实时匹配特征头128字节的变换结果,(f,a)=(频率,振幅),三个最高值按频率排序是6,4,2,对应振幅17,21,19;这个可以用来统计匹配波形的傅里叶特征,而fft1920中的实时白噪音频谱图是1920字节实时波形图的傅里叶变换,左侧门限下图,是匹配到的1920字节实时波形图的傅里叶变换,他是静态的,除非再匹配到,他才会改变,可用来观察傅里叶变换后频率特征,门限(门槛)70以下的噪音过滤掉了,你是否看到频率等于27+1时,出现了振幅最大值,右侧1920字节四段波形图是无声时的噪音,你可以看到,在fft1920中频率小于27,应该在10以内。fft1920好像缺少一个统计表单,回头把他补充上去。还有就是,频率值最大是128,看到没有,是没有单位的,我和口琴的do音262赫兹作了比较,do音刚好落在27附近,而口琴的xi音494赫兹大概在120位置左右。

我估计f频率最多用到256,因为越往后音越高,这种高频成分会非常少,我们来验证一下,再上一张图(测试时,随便大叫一声(一个人到底有多少野性未释放,试一试?!听说人的能量是无限的),频谱图就这样):看到没有,这张图f=512,注意不是512赫兹,你看,一半(256)以后,高频振幅很小(设个门槛,都可以滤掉).

这张图上的开关灯实现,我使用的是opt(奥普特)的24伏的led光源和他们家的串口控制的光源控制器,淘宝上有卖,以前在工程上用过,控制程序我有。造价太高,所以要cost down,淘宝上找到一家usb的继电器,正在研究他的示例程序,估计指日可待,这样,我们就可以掌控一般家庭用灯开关,但也失去了不同亮度控制的乐趣(因为机器视觉光源,可以线性的掌控在不同亮度,通过程序)。

进化后的全家福:

这是声音掌控图像放大,(本来有一个9527msg消息响应的,有没有想到唐伯虎点秋香的星爷,有兴趣,整一个!)声音未匹配之前对比匹配之后,如下:

这里使用了自己动态链接库(集成了basler相机),200万的相机,只使用了80万,方便标定研究(买的标定板在视野中太小),千兆网卡(gige规格)。

再上两张全家福,口琴版本,进化满意版本:

在获取口琴xi音时,动了一下usb串口,卡死了,所以你还欣赏到了xi音实时1920波形。

看到这两张图,发现人的记忆力真的不如笔记烂笔头,我用口唱出来的do,re,mi,fa,sol,la,xi频率是26,29,32,35,38,41,44,而口琴的频率是62,70,78,86,94,102,110,注意,没有单位,不是赫兹。明显一开头说的话是有错误的,但是f频率取128仍然是正确的(即人的一般发声在62以下26以上(人声带振动噪音分布在26以下),重音口琴一般发声在62以上,128以下,所以频率分布上,口琴要比人的频率高一些)。我们的一个wu音,或者yi音,1920个字节够用了,大概发音在250ms(毫秒),我们一秒采集8000字节样本点,1/4秒(s)是2000字节,其实观察多了,有些东西慢慢就懂了,渐渐变得有规律,可计算了。

知道了归一化思想发现唱的没有吹得好听。这个项目的中心思想是傅里叶,但最重要的还是要培养自己对事物认识的热情和兴趣,错误是难免的,欢迎指正。

待续(慢慢来!...........)每天一点小改变☺

我的邮箱[email protected];[email protected]

发布了66 篇原创文章 · 获赞 12 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/ganggangwawa/article/details/102555702