AI大语音（七）——基于GMM的0-9语音识别系统 - 代码天地

AI大语音（七）——基于GMM的0-9语音识别系统

其他 2020-10-14 16:49:50 阅读次数: 0

1 系统概要

孤立词识别：语音中只包含一个单词的英文识别

识别对象：0-9以及o的英文语音

训练数据：330句话，每个字符30句话，11个字符

测试数据：110句话，每个字符10句话，11个字符

模型：混合高斯模型（GMM），k=5个分量

环境：window、Pycharm、python3.5、utils、numpy、scipy

目标：单个字符的识别准确率大于97%

流程：

2 训练数据准备

本系统所用的数据为0-9（其中0的标签为Z（Zero））和o这11个字符的英文录音，每个语音对应的39维MFCC特征提前提取好。

系统中，每个字符用一个GMM来建模，每个GMM包含5个Gaussion分量。

在识别、预测阶段，对于某句话，对数似然最大的模型对应的字符为当前语音数据的预测结果。

训练数据：330句话，每个字符30句话，11个字符。

train文件下有语音文件、feats.ark、feats.scp、wav.scp、text文件。

wav.scp：句子id到wav的路径的映射，所用到的数据wav文件的相对路径。

feats.scp：语音识别工具kaidi提取的特征文件之一，句子id到特征数据真实路径和位置的映射。

text：句子id到标签的映射，本实验中标签（语音对应的文本）只能是0-9，o这11个字符。

feats.ark：语音识别工具kaidi提取的特征文件之一，特征实际存储在ark文件中，二进制。

3 GMM模型训练

每个GMM（0-9，o）都是用它对应的语音数据训练，测试的时候，也只能整段语音分帧、加窗、提特征，然后在每个GMM上，计算每一帧的似然最后求和得到最终似然。

GMM模型训练过程：

（1）MFCC特征提取已事先提取好。

（2）K-Means算法进行初始化GMM参数。

K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

输入：样本集D={x1,x2,...xm}，聚类的簇树k=5，最大迭代次数N。

输出：簇划分C={C1,C2,...Ck}

1) 从数据集D中随机选择k个样本作为初始的k个质心向量：{μ1,μ2,...,μk}

2）对于n=1,2,...,N

a) 将簇划分C初始化为Ct=∅，t=1,2...k

b) 对于i=1,2...m，计算样本xi和各个质心向量μj(j=1,2,...k)的距离：

将xi标记最小的为dij所对应的类别λi。此时更新Cλi=Cλi∪{xi}

c) 对于j=1,2,...,k，对Cj中所有的样本点重新计算新的质心

d) 如果所有的k个质心向量都没有发生变化，则转到步骤3）

3）输出簇划分C={C1,C2,...Ck}

算法实现：

11个GMM都要初始化，其中Z的GMM模型的初始参数为：

mu.shape (5, 39)

sigma.shape (5, 39, 39)

pi.shape (1, 5)

（3）EM 算法训练GMM模型

算法实现：

五次迭代，每次迭代后对数似然概率都在增大。

其中：

高斯概率：gaussian(X[n], self.mu[k], self.sigma[k])

算法实现：

对数似然：calc_log_likelihood(X)

算法实现：

迭代过程：（Z的GMM模型）

（O的GMM模型）

等等。

训练时间：17.5分钟

4 GMM预测

测试数据：110句话，每个字符10句话，11个字符

GMM预测过程：

（1）MFCC特征提取已事先提取好。

（2）11个GMM模型已经训练好。

（3）每个测试语音计算每一个模型的对数似然概率。

（4）对数似然最大的对应的模型即为预测输出。

（5）将预测输出与标签对比，计算模型测试准确率。

可见模型3对数似然最大，即这条语音预测为“3”。

predict_target：3

测试时间：test time: 12分钟

模型测试准确率：97.27%

5总结

基于GMM的11个单词孤立词识别准确率达97.27，满足设计要求。

基于GMM的0-9孤立词识别系统以词为训练单位，添加新词汇需要重新进行训练，若要涵盖所以词，差不多6万个词，训练量极大，预测时也要计算6万个模型的似然，哪个大预测出哪个，在实际应用中有局限性，只能应用于小词汇量场合。

本系统识别了0-9的数字的英文单词，但是假如有人用英文报电话号码，是识别不了整个号码的，甚至识别不了其中的one。

孤立词识别这个模型无法从一连串英文号码（里面包含了one two等多个数字）中准确识别出one，关键点在于连续语音中不知道哪些语音信号是one，哪些是two，或者说不知道哪些帧是one哪些帧是two，所以需要HMM进行对齐，才能进行连续语音识别。

灵魂的拷问：如果使用孤立词识别这个模型去预测连续的一个语音，会怎么样呢？

AI大语音：结果会是给定的类别中的一个，这就造成了误识别。系统中只有11个类别，任何语音，即使和我们的目标语音完全无关，也会根据计算的似然结果，选择最大的这个。就像CNN进行图像分类一样，输入的图像不管是不是类别中的，都会有一个最大输出，都会归于一类中。

连续语音识别如微信语音识别（语音转文字），输入的都是句子，而不是单个词，这就需要GMM-HMM模型了。

附录（魔鬼写手）

——————

浅谈则止，细致入微AI大道理

扫描下方“AI大道理”，选择“关注”公众号

欢迎加入！

▼

下期预告

▼

AI大语音（八）——基于GMM-HMM的语音识别系统

▼

往期精彩回顾

▼

AI大语音（一）——语音识别基础

AI大语音（二）——语音预处理

AI大语音（三）——傅里叶变换家族

AI大语音（四）——MFCC特征提取

AI大语音（五）——隐马尔科夫模型（HMM）

AI大语音（六）——混合高斯模型（GMM）

留你心，言你想

猜你喜欢

转载自blog.csdn.net/qq_42734492/article/details/108263140

AI大语音（七）——基于GMM的0-9语音识别系统

AI大语音（九）——基于GMM-HMM的连续语音识别系统

[语音识别] 05 基于GMM-HMM的语音识别系统

【语音识别】基于GUI DTW的0-9数字语音识别【Matlab 334期】

基于CTC的语音识别系统训练

基于语音的情绪识别系统（Python）

基于Python的语音识别系统

基于百度语音的Unity语音识别系统

【语音识别】傅立叶变换0-9的数字语音识别【含Matlab 333期】

Kaldi语音识别技术(七) ----- 训练GMM

语音识别系统原理介绍---从gmm-hmm到dnn-hmm

3.3 基于GMM-HMM的语音识别

基于黑盒语音识别系统的目标对抗样本

基于深度学习的中文语音识别系统框架

基于Android平台的藏语语音识别系统

基于深度学习的中文语音识别系统

基于安卓的智能语音识别系统

语音识别——基于深度学习的中文语音识别系统实现（代码详解）

语音识别——基于深度学习的中文语音识别系统框架

[语音识别] 06 基于DNN-HMM的语音识别系统

人脸识别、语音识别系统

AI大语音（一）——语音识别基础

[语音识别] 语音识别系统化整理

三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的语音识别传统方法(GMM+HMM+NGRAM)概述

开源PocketSphinx语音识别系统

【语音识别】基于matlab GUI HMM 0~9数字语音识别【含Matlab源码 1393期】

AI大语音（八）——GMM-HMM声学模型

语音识别-GMM算法原理

【NLP】语音识别 — GMM， HMM

基于GMM—HMM的语音识别全过程

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)