人工智能(AI)入门---傅里叶语音识别项目(发端)

为什么傅里叶一定要实现它?如此执着?你一定感受过声控灯的神奇,缺什么,补什么,想要的‘糖’,吃在嘴里,甜在心里,这个‘糖’,不用买,可以自己造出来,原来天下有这么神奇的事情(小孩子最喜欢,我也喜欢),所以让声控灯更进一步,怀揣这个想法。

曾有一个抄写成功的vc++版本的采集声音的程序,有十年了,后来又打通了局域网(lan)内网口通信,顺便合二为一,写了一个聊天程序,更进一步,既然一楼的电视声音被传到二楼(预设双工通信,只能通过鼠标按钮切换实现双工,未找到原因),能否传图像呢?一直未实现,工作几年后,当你想起,原来的程序,怎么也找不到了,想想当时那下的心血啊,可惜了(也不可惜,踏进了vc++的大门)!这到来的AI时代,自己的图像处理技术也日臻完善(拜赐于机器视觉工作),写一个lan内的声视通信的程序没那么初心般渴望了(这是不是对QQ的潜意识呢?),转而想到了语音能否开关灯呢?于是乎!一发不可收拾。本来要识别一些自己的语音如:大,大,大;小,小,小(有没有想到孙大圣的金箍棒,我用它响应放大缩小图像);开,关之类的,实现后(这个版本主要使用图像匹配技术),转向爸爸,妈妈,姑姑,舅舅,a,o,e,i,u,ǖ和一二一的识别(这个版本起了个名字叫钨音传说),实现后,其实都是半桶水,发音到了频道,ok,不在频道,即使同音,累死你,就是不出来,再加上噪音和白噪音干扰,晚上感觉特好,成功率极高,有没有好方法?准确率高一些呢?终于,轮到傅里叶登场了(怎么想到傅里叶的呢?上学的时候,曾经狼吞虎咽一本书,梁之安先生著述的《听觉感受和辨别的神经机制》,现在才开始消化),我滴个神啊!人生的曙光照了进来,只要你想到了,其他都不是问题,关键是灵感到了,就像李白遇到杜甫。

就一个难题,攻下傅里叶,十年了,真是闻名不如见面,该补未学之课了!

语音识别中,潜意识使用了图像处理的匹配识别技术,但,就是不理想!不曾想误打误撞通关了一维傅里叶变换,二维在图像处理中用的更广泛,但一般都是分解成行列两个一维傅里叶加快速度处理的(他们说visionpro中,未使用傅里叶是有道理的),看来自己的图像处理【二维像素矩阵】又可以再迈一步了。

等搞定傅里叶,用上傅里叶,也不理想,最后在标准化(归一化)输入的启示下,通过音乐的方式,发现了窍门,所谓标准化(归一化),你是否想到一个英文单词Normal(正态分布),是的,他实质表达了两层意思,一,突出特征,二,normal统计分离出来。其实并非一定要懂正态(高斯)分布,人所用的东西,不一定要数学化(能数学表达,更好),你看,中国人用了两千年的中庸,是否涵盖了正态分布和归一化思想,语言和习惯几千年不变的,这也叫真理,只不过我们习惯了真理用数学表达的方式,习惯一种方式,要变化为另一种方式,很难!借用上海重音口琴,终于可以准确识别了,do,re,mi,fa,sou,la,xi,长路漫漫啊!

我发现归一化思想好像没有在课本里被重复强调过,但在人工智能时代,归一化思想会散落在正态(高斯)分布里,马氏距离里,最小二乘法里,我还在直方图均衡化里见到了他的影子,以及在点积归一化矢量数学的应用(游戏编程中用来快速识别智能体方向)里。归一化正是很多AI算法抽象的形象语言的表达。

做过一次测试,用口琴演奏欢乐颂(贝多芬),识别了22个音,成功19个,了不起啊!这是从0到1的突破。无人师导,真是柳暗花明,峰回路转。古人云,活到老,学到老,若古人遇到这样的专业,一定是符合他们审美的。曾在工作中遇到比肩我父亲年龄的日本人出差公司,指导我们工作,熟练的写着程序,还带着一个跟学13年的徒弟,真是佩服啊!(惭愧啊!)想想我们中国,正在给程序员定义一个四十岁的笼子,多么可怕!(想写就写,写他个天荒地老!)

可以肯定的是,语音识别中使用的图像匹配识别技术和傅里叶匹配技术,是最接近语音识别成功的技术,若在语音(语言)归一化上下功夫,指日可待。

AI其实可以很简单,编程这么多年,若有一个算法是自己的,真的很了不起,但你的少算法的程序就是AI,简单中蕴藏着AI,你比如微软mfc中类的自动生成,文本中搜索关键字,再比如编程中的类和函数提示技术,细细思来,坦然就好,没有思考的追逐,很容易迷失,你再比如,我们设计的线图像工具,这是机器视觉的支撑,这些都是高中掌握的知识就可以搞定,算法看似高大上,在细节上,失败是平等的,而有一种并行,就像耳朵和眼睛,夸大任何一样都不妥。

识别到,靠眼和耳这样熟练熟悉的平台,也只是万里长征第一步,但我们需要这一步,这是0到1的第一步,而在加上头脑风暴(烧脑),才会有一丝丝前行。

不积跬步,无以至千里。千里之行,始于脚下。回头我们从采集声音程序说起。

待续(慢慢来!...........)每天一点小改变☺

我的邮箱[email protected];[email protected]

发布了66 篇原创文章 · 获赞 12 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/ganggangwawa/article/details/102480691