语音识别系列 1篇 Speech Recognition Building a Simple Hidden

作者:禅与计算机程序设计艺术

1.简介

什么是语音识别?简单来说,就是把声音转换成文字、命令等语言信息,其过程包括:录制音频信号、编码处理、解码处理、再现语音信息、最终输出文字或指令。用简单的数字来表示语音信号时,一个声音可以用一个二维矩阵表示,该矩阵就叫做音频帧(audio frame)。一般来说,不同人的声音之间存在一定差异,所以编码处理和解码处理必须依赖于特定领域的知识。比如,英语有单词拼写规则、语法规则,汉语有汉字笔画与声调的对应关系;而且不同语种的音标也不同,所以需要有语音识别系统根据声学特点进行精准匹配。无论如何,语音识别是一个十分重要的技术领域。

然而,在本文中,我们将重点关注一种简单的机器学习方法——Hidden Markov Model (HMM)。这是一种典型的基于观察序列的概率模型,可以用于解决标记问题、聚类问题、预测问题、分类问题、检测问题等。在本文中,我们将介绍HMM的基本概念、建立HMM模型的方法以及Python编程实现。最后,我们还会讨论HMM在实际场景中的应用,并给出一些可能遇到的一些问题及对应的解决方案。

2.背景介绍

HMM由两部分组成,即状态(States)和观测值(Observations)。观察值往往以符号或特征向量的形式出现,其中每一个元素都可以认为是对隐藏变量的一个抽象描述。状态则是一个隐藏变量,它可以使得模型能够持续不断地生成观察值序列。具体来说,HMM由三个部分组成:初始状态概率(Initial State Probability)、转移概率(Transition Probabilities)和发射概率

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132706213