隐马尔科夫模型（Hidden Markov Model）

写在前面

隐马尔科夫模型（Hidden Markov Model，以下简称HMM）是比较经典的机器学习模型了，它在语言识别，自然语言处理，模式识别等领域得到广泛的应用。最近入坑NLP，看到好多算法都涉及到HMM。那么什么样的问题需要HMM模型来解决，一般有以下两个特征：（1）我们的问题是基于序列的，比如时间序列，或者状态序列。（２）我们的问题中有两类数据，一类序列数据是可以观测到的，即观测序列；而另一类数据是不能观察到的，即隐藏状态序列，简称状态序列。

一、HMM模型基础

对于HMM 模型，假设Q是所有可能的隐藏状态的集合，V是所有可能的观察状态的集合，

对于一个长度为T的序列，I对应状态序列，O对应观察序列，

其中，任意一个隐藏状态 i 属于集合Q，任意一个观察状态 o 属于集合V

HMM模型两个重要的假设：

1）齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。当然这样假设有点极端，因为很多时候我们的某一个隐藏状态不仅仅只依赖于前一个隐藏状态，可能是前两个或者是前三个。但是这样假设的好处就是模型简单，便于求解。如果在时刻t的隐藏状态是it=qi,在时刻t+1的隐藏状态是it+1=qj, 则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为：

这样aij可以组成马尔科夫链的状态转移矩阵A:

2）观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态，这也是一个为了简化模型的假设。如果在时刻t的隐藏状态是it=qj, 而对应的观察状态为ot=vk, 则该时刻观察状态vk在隐藏状态qj下生成的概率为bj(k),满足：

这样bj(k)可以组成观测状态生成的概率矩阵B:

除此之外，还需要一组在时刻t=1的隐藏状态概率分布Π:

一个HMM模型，可以由隐藏状态初始概率分布Π, 状态转移概率矩阵A和观测状态概率矩阵B决定。Π,A决定状态序列，B决定观测序列。因此，HMM模型可以由一个三元组λ表示如下：

二、HMM观测序列的生成

三、HMM模型的三个问题

1）评估观察序列概率。即给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT}，计算在模型λ下观测序列O出现的概率P(O|λ)。这个问题的求解需要用到前向后向算法，我们在这个系列的第二篇会详细讲解。这个问题是HMM模型三个问题中最简单的。

2）模型参数学习问题。即给定观测序列O={o1,o2,...oT}，估计模型λ=(A,B,Π)的参数，使该模型下观测序列的条件概率P(O|λ)最大。这个问题的求解需要用到基于EM算法的鲍姆-韦尔奇算法，我们在这个系列的第三篇会详细讲解。这个问题是HMM模型三个问题中最复杂的。

3）预测问题，也称为解码问题。即给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT}，求给定观测序列条件下，最可能出现的对应的状态序列，这个问题的求解需要用到基于动态规划的维特比算法，我们在这个系列的第四篇会详细讲解。这个问题是HMM模型三个问题中复杂度居中的算法。

四、基于hmmlearn的HMM实战

hmmlearn是学习HMM的python库，细节可以参考hmmlearn官方文档。

hmmlearn实现了三种HMM模型类，按照观测状态是连续状态还是离散状态，可以分为两类。GaussianHMM和GMMHMM是连续观测状态的HMM模型，而MultinomialHMM是离散观测状态的模型。下面举个栗子