HMM及其在语音识别中的若干应用(一)

声明:本文译自HMM经典论文《A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition》,由于本人水平有限,翻译行文可能不是很通顺,也可能有很多错误,希望大家看到能够指出,以便及时修正。本文欢迎转载,但翻译不易,转载请注明出处,谢谢。

本文于1988年1月15日收到原稿;并于1988年10月4日做了修订。

作者受雇于美国新泽西默里山的AT&T贝尔实验室(07974-2070)。

IEEE日志号 8825949。

尽管在20世纪60年代末70年代初才被引入研究,马尔可夫信源统计方法与隐马尔可夫模型,在近些年来却迅速流行起来。主要原因有两点。首先,该模型的数学结构十分丰富,因此很多应用可以用它构建理论基础。其次,如果使用得当,其在一些重要应用中的实际效果非常好。本篇论文仔细系统地回顾该统计模型的各种理论,并展示它们是如何应用到几个机器语音识别问题上的。

I.简介

​ 现实世界中的处理过程通常会输出可观测的结果,这些结果可以用各种信号表示。在自然界中,这些信号可能是离散的(如,字母表中的字母,码表中的码矢等),也可能是连续的(如,语音样本,温度的测量值,音乐等)。可能是平稳的(即,其统计特征不随时间变化),也可能是非平稳的(即,其信号特征会随时间变化)。可能是纯净的(即,信号直接来自信号源),也可能因其他信号源(如,噪声)、传输失真、混响等因素污染。

​ 最根本的问题是,如何使用信号模型描述自然信号。那么为什么我们热衷于使用信号模型呢?主要有以下原因。首先,信号处理系统用于处理信号输出期望值,而信号模型就是信号处理系统理论描述的基础。比如,如果我们希望增强因噪音和传输失真受损的信号,就可以依据信号模型来设计一个能够理想地消除噪声还原失真的系统。其次,信号模型为我们提供了在脱离信号源(即,现实世界中信号的产生过程)的情况下,仍能较全面地研究信号源的可能。这点在从自然信号源中获取信号的代价高昂时尤为重要。在这种情况下,我们可以通过模拟信号源,无限制的进行相关研究。最后,也是最重要的原因,信号模型之所以如此重要,是因为它在实际应用中的表现非常好,我们可以用它高效地实现各种重要实用的系统——比如,预测系统、识别系统、认证系统等。

​ 确定性模型通常利用的信号已知的明确特性,比如,信号是一个正弦波或指数和等。在这种情况下,信号模型的设定是明确的,唯一需要做的就是确定(估计)模型中各参数的值(如,正弦波形的振幅、频率、相位,指数函数的振幅和率等)。信号模型的第二个大类是统计模型,统计模型试图只描述信号的统计特征。这类模型中可能包含高斯过程,泊松过程,马尔可夫过程,以及隐马尔可夫过程等。统计模型的基本假设是,信号可以使用参变随机过程恰当地描述,且随机过程的参数可以使用通过明确而严格方法确定(估计)。

​ 在我们关注的语音处理应用中,确定的和随机的信号模型均颇有成效。本文我们的将只关注一个随机信号模型,即隐马尔可夫模型(HMM)(在文献交流中,这些模型被称为马尔可夫信源或马尔可夫链概率函数)首先,我们会回顾一下马尔可夫链理论,并通过几个简单的例子,将这种思想扩展到隐马尔可夫模型。然后我们会把关注点放在隐马尔可夫模型设计的三个基本问题(1)上,即:对给定HMM某一观察值序列概率(或可能性)的估计;对模型状态最佳序列的判定;为使模型与观察到的信号达到最佳匹配而做的参数调整。我们将证明一旦这三个问题得到解决,我们就能将HMM应用到语音识别的相关问题上。

​ 不管HMM还是其在语音识别上的应用都都不是新的课题。基础理论已于20世纪60年代末70年代初,由Baum和他的同事[1]-[5]在一系列经典论文中发表。在语音处理应用中的实现,也于20世纪70年代,由 CMU 的 Baker[6] 及 IBM 的 Jelinek 和他的同事[7]-[13]完成。但是,直到近几年,语音处理领域才开始广泛理解和使用HMM理论。之所以如此,首先是因为,基础理论首先发表在数学学术期刊中,并未被研究语音处理的工程师广泛阅读;其次,HMM在语音识别领域的最初应用,并没有提供充足的指导材料,使得大部分读者不能理解该理论,进而将其应用到自己的研究中。因此,出现了一批指导性的论文,这些论文提供了充足的细节,使一些实验室开始将HMM应用到各自的语音处理应用中[14]-[19]。本指南旨在概述HMM基础理论(Baum和他的同事提出的理论),提供该理论实际实现方法的细节,描述该理论在语音识别几个突出问题上的应用。本文整合了一些原创资源,希望为想在这个迷人的领域深入研究的人,提供必要的背景知识。

​ 本文的组织如下。第2部我们将回顾离散马尔可夫链理论,并展示怎样有效地利用隐藏状态的概念,观测值就是这些状态的一个概率函数。我们会用两个简单的例子来说明该理论,即抛硬币问题和经典的球盒问题。第3部分我们讨论HMM的三个基本问题,并给出几个解决这些问题的实用方法。第4部分我们讨论几种已被研究过的HMM模型,包括遍历及左右模型。我们还会讨论模型的不同特征,包括观察值概率密度函数的形式,状态的时域密度,HMM参数调优的指标。第5部分我们讨论实现HMM过程中出现的问题,包括定标,参数初始值估计,模型大小,模型形式,缺失数据,多观察序列。第6部分我们描述使用HMM思想实现的一个孤立词语音识别器,并展示与其他实现相比它是怎样工作的。第7部分我们扩展第6部分的模型到识别语音中的一串词,这里通过将词汇表中每个词的HMM连接起来实现。第8部分我们简要概述HMM思想是怎样应用到大词汇量语音识别中的。第9部分我们总结本文讨论的所有思想。

(1)使用三个基本问题来描述HMM理论的想法,来自于 Jack Ferguson,他为 IDA(Institute for Defense Analysis,美国国防分析研究所)工作,在演讲及著作中提出了该观点。

猜你喜欢

转载自blog.csdn.net/sunknew/article/details/78831157