文章目录

通信模型
马尔可夫假设和马尔可夫过程
隐马尔可夫模型和通信模型
HMM模型表示
HMM概率计算

前向递推公式
后向递推公式
前后向算法之间的关系
一些概率计算公式

HMM模型学习

监督学习方法
期望最大化算法

HMM预测/解码

贪心近似算法
维特比算法

HMM局限

通信模型

发送者（人或机器）发送信息时，需通过媒介（空气或电线）传播信号，此过程为广义上的编码。接收者根据规则将信号还原成发送者发送的信息，此过程为广义上的解码.

语音识别是接收方根据接收信号还原发送方的信息的过程，如何通过观测信号 $o_1,o_2,\cdots$ ，来分析信号源发送的信息 $s_1,s_2,\cdots$ 呢？从概率角度来看，就是从所有源信息中找到最可能产出观测信号的源信息。

根据贝叶斯定理
$P(s_1,s_2,\cdots|o_1,o_2,\cdots)=\frac{P(o_1,o_2,\cdots|s_1,s_2,\cdots)P(s_1,s_2,\cdots)}{P(o_1,o_2,\cdots)}$

一旦信息 $o_1,o_2,\cdots$ 产生后就不会改变，即 $P(o_1,o_2,\cdots)$ 为常数，最可能的源信息
$s_1,s_2,\cdots =\arg\max_{s_1,s_2,\cdots}P(s_1,s_2,\cdots|o_1,o_2,\cdots)= \arg\max_{s_1,s_2,\cdots}P(o_1,o_2,\cdots|s_1,s_2,\cdots)P(s_1,s_2,\cdots)$

这个公式可由隐含马尔可夫模型求解。

马尔可夫假设和马尔可夫过程

观测序列 $s_1,s_2,\cdots,s_t,\cdots$ 是每天最高气温序列， $s_t$ 为气温随机变量。假设随机过程中状态 $s_t$ 的概率分布只与它的前一个状态相关（今天的最高气温仅与昨天的最高气温有关），即
$P(s_t|s_1,s_2,\cdots,s_{t-1})=P(s_t|s_{t-1})$

该假设称为马尔可夫假设，符合马尔可夫假设的随机过程称为马尔可夫过程（有向图-贝叶斯网络）。

随机选择一个状态作为初始状态，随后依据转移规则生成后续状态，经 $T$ 时间后，产生状态序列 $s_1,\cdots,s_T$ 。若时间足够长，从 $m_i$ 到 $m_j$ 的转移概率为 $\#(m_i,m_j)/\#(m_i)$ 。

隐马尔可夫模型和通信模型

隐马尔可夫模型，描述由马尔可夫链生成不可观测的状态序列，再由状态序列生成观测序列的过程。 隐含的状态序列 $s_1,s_2,\cdots$ 是一个典型的马尔可夫链，这种模型称为“隐含”马尔可夫模型。

隐马尔可夫模型的两个假设：

独立输出假设： HMM在每个时刻 $t$ 输出一个观测 $o_t$ 仅与隐状态 $s_t$ 相关：：
$P(o_t|s_1,\cdots,s_{t},o_1,\cdots,o_{t-1})=P(o_t|s_{t})$
马尔可夫假设： HMM在每个时刻 $t$ 的隐状态 $s_t$ 仅与上一时刻隐状态 $s_{t-1}$ 有关：
$P(s_t|s_1,\cdots,s_{t-1},o_1,\cdots,o_{t-1})=P(s_t|s_{t-1})$

根据马尔可夫假设和独立输出假设，状态序列和观测序列的联合概率（生成式模型）
$P(s_1,s_2,\cdots,o_1,o_2,\cdots)=\prod_tP(s_t|s_{t-1})\cdot P(o_t|s_t)$

通信解码问题可用HMM解决，利用Viterbi算法找到上面概率的最大值，进而找到最可能的隐藏状态.

HMM模型表示

令隐藏状态集合 $M = \{m_1,\cdots, m_N\}$ ，观测状态集合 $V = \{v_1, \cdots, v_M\}$ ，隐藏状态序列 $S = (s_1, \cdots, s_T)$ ，观测状态序列 $O = (o_1, \cdots, o_T)$ 。

I. 状态转移矩阵
若时刻 $t$ 处于隐藏状态 $m_i$ ，时刻 $t+1$ 处于隐藏状态为 $m_j$ ，则时刻 $t$ 到时刻 $t+1$ 的状态转移概率
$a_{ij} = P(s_{t+1} = m_j | s_t = m_i), \quad i,j = 1, 2, \cdots, N$

状态转移矩阵 $A = [a_{ij}]_{N \times N}$ .

II. 观测概率矩阵
若时刻 $t$ 处于隐藏状态 $m_j$ ，则从隐藏状态 $m_j$ 到观测状态 $v_k$ 的生成概率
$b_j(k) = P(o_t = v_k | s_t = m_j), \quad k = 1,2,\cdots, M; \, j = 1, 2, \cdots, N$

观测概率矩阵 $B = [b_j(k)]_{N\times M}$ .

III. 初始状态概率向量
若初始时刻 $t=1$ 处于状态 $m_i$ 的概率
$\pi_i = P(s_1 = m_i), \quad i = 1, 2, \cdots, N$

初始状态概率向量 $\Pi = (\pi_i)$ .

综上， $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列，HMM的三元组表示为
$\lambda=(A,B,\Pi)$

示例：假设有 $4$ 个盒子，每盒都装有红白两种颜色的球，如下

盒子 X	1	2	3
红球数	5	4	7
白球数	5	6	3

依初始概率随机选取1个盒子，从中抽出1个球再放回，然后转移到下一个盒子，如盒子1的转移概率为
$P(X=1|X=1)=0.5,\quad P(X=2|X=1)=0.2,\quad P(X=3|X=1)=0.3$

如此重复进行5次，得到球颜色的观测序列
$O = \{红, 红,白,白,红\}$

例中，盒子序列为隐状态序列，球颜色序列是观测序列已知，HMM三要素：
$A = \left[\begin{matrix} 0.5 &0.2 &0.3 \\ 0.3 &0.5 &0.2 \\ 0.2 &0.3 &0.5 \end{matrix}\right] ,\quad B = \left[\begin{matrix} 0.5 &0.5 \\ 0.4 &0.6 \\ 0.7 &0.3 \end{matrix}\right] ,\quad \Pi=(0.2, 0.4, 0.4)^T$

HMM概率计算

问题描述：已知模型 $\lambda=(A,B,\Pi)$ 和观测序列 $O = (o_1, o_2, \cdots, o_T)$ ，计算模型 $\lambda$ 下观测序列 $O$ 的概率，即 $P(O|\lambda)$ 。

是否可以通过枚举计算观测序列出现的概率？通过枚举状态序列 $S = (s_1, s_2, \cdots, s_T)$ ，求解 $S$ 与观测序列 $O = (o_1, o_2, \cdots, o_T)$ 的联合概率 $P(O, S|\lambda)$ ，再求和
$\begin{aligned} P(O|\lambda) & = \sum_S P(O, S|\lambda) = \sum_{S}P(O|S, \lambda)P(S|\lambda) \end{aligned}$

隐藏状态序列有 $N^T$ 种组合，直接计算法的复杂度为 $O(TN^T)$ ，不适用于隐含状态较多的模型。

前向递推公式

前向算法是一种DP算法，通过定义局部状态前向概率得到递推公式，将子问题的最优解扩展到全局问题的最优解。给定模型 $\lambda$ ，在时刻 $t$ 观测序列为 $o_1, \cdots, o_t$ 且隐藏状态 $s_t=q_i$ 的概率为前向概率，定义为
$\alpha_t(i) = P(o_1,\cdots,o_t,s_t=q_i|\lambda),\quad \ P(O|\lambda) = \sum_{i}\alpha_T(i),\quad \alpha_1(i) = \pi_i b_i(o_1)$

由齐次马尔可夫性和观测独立性假设，知前向概率的递推公式为
$\begin{aligned} \alpha_{t+1}(i) &=P(o_1,\cdots,o_t,o_{t+1},s_{t+1}=q_i|\lambda)\\[1ex] &=\sum_jP(o_1,\cdots,o_t,o_{t+1},s_t=q_j,s_{t+1}=q_i|\lambda)\\ &=\sum_jP(s_{t+1}=q_i,o_{t+1}|o_1,\cdots,o_t,s_t=q_j,\lambda)P(o_1,\cdots,o_t,s_t=q_j|\lambda)\\ &=\sum_jP(s_{t+1}=q_i,o_{t+1}|s_t=q_j,\lambda)\alpha_t(j)\\ &=\sum_jP(o_{t+1}|s_t=q_j,s_{t+1}=q_i,\lambda)P(s_{t+1}=q_i|s_t=q_j,\lambda)\alpha_t(j)\\ &=\left[\sum_{j} \alpha_t(j) a_{ji}\right] b_i(o_{t+1}) \end{aligned}$

基于状态序列的路径结构递推计算 $P(O|\lambda)$ ，通过保存子问题的解以避免重复计算，达到计算加速的目的。

矩阵形式为 $\boldsymbol\alpha_1=\boldsymbol\pi\odot\boldsymbol B_{o_1},\ \boldsymbol\alpha_{t+1}=(\boldsymbol\alpha_t^TA)\odot\boldsymbol B_{o_{t+1}}$ ，最后迭代得到 $\alpha_T(i)$ ，因此
$P(O|\lambda)=\sum_{i}\alpha_T(i)$

若模型 $\lambda$ 含 $N$ 个隐藏状态，观测序列 $O$ 的长度为 $T$ ，则 $P(O|\lambda)$ 的时间复杂度为 $O(N^2T)$ 。

Python实现

import numpy as np


def forward_HMM(O, PI, A, B):
    """
    已知模型，求解状态序列概率

    :param O: 1D, 观测序列（元素为整数）
    :param PI: 1D, 初始概率向量
    :param A: 2D, 状态转移矩阵
    :param B: 2D, 观测生成矩阵
    :return: float, O的概率
    """
    PI = np.asarray(PI).ravel()
    A = np.asarray(A)
    B = np.asarray(B)

    # 求解第1步的前向概率
    alphas = B[:, O[0]] * PI

    # 求解2至T步的前向概率
    for index in O[1:]:
        alphas = np.dot(alphas, A) * B[:, index]

    # 累计最后所有隐藏状态的前向概率
    return alphas.sum()

if __name__ == '__main__':
    # 初始概率向量
    PI = [0.2, 0.4, 0.4]
    # 状态转移矩阵N*N, N个隐含状态
    A = [[0.5, 0.2, 0.3], [0.3, 0.5, 0.2], [0.2, 0.3, 0.5]]
    # 观测概率矩阵N*M, N个隐含状态, M个观测状态
    B = [[0.5, 0.5], [0.4, 0.6], [0.7, 0.3]]
    # 观测序列
    O = [0, 1, 0]

    print(forward_HMM(O, PI, A, B))

后向递推公式

给定模型 $\lambda$ ，在时刻 $t$ 隐藏态为 $q_i$ 且时刻 $t+1$ 之后观测序列为 $o_{t+1}, \cdots, o_T$ 的概率为后向概率，即
$\beta_t(i) = P(o_{t+1},o_{t+2},\cdots,o_T|s_t = q_i, \lambda),\quad P(O|\lambda) = \sum_{i}\pi_i b_i(o_1) \beta_1(i),\quad \beta_{T}(i) = 1$

由齐次马尔可夫性和观测独立性假设，知后向概率的递推公式
$\begin{aligned}\beta_t(i) & = \sum_{j}P(o_{t+1},\cdots,o_T,s_{t+1}=q_j|s_t = q_i, \lambda) \\ & = \sum_{j}P(o_{t+1},\cdots,o_T|s_t = q_i,s_{t+1}=q_j, \lambda)\cdot P(s_{t+1}=q_j|s_t =q_i, \lambda) \\ & = \sum_{j}a_{ij}\cdot P(o_{t+1},\cdots,o_T| s_{t+1}=q_j, \lambda)\\ & = \sum_{j}a_{ij}\cdot P(o_{t+1}|o_{t+2},\cdots,o_T,s_{t+1}=q_j,\lambda)\cdot P(o_{t+2}, \cdots, o_T|s_{t+1}=q_j, \lambda)\\ & = \sum_{j}a_{ij}\cdot P(o_{t+1}|s_{t+1}=q_j,\lambda)\cdot P(o_{t+2},\cdots, o_T|s_{t+1}=q_j, \lambda) \\ & = \sum_{j}a_{ij}\cdot b_j(o_{t+1})\cdot \beta_{t+1}(j) \end{aligned}$

前后向算法之间的关系

$\begin{aligned} P(O|\lambda) & = \sum_{i}P(o_1, \cdots, o_t, s_t=q_i, o_{t+1}, \cdots, o_T, |\lambda)\\ & = \sum_{i}P(o_{t+1}, \cdots, o_T | o_1, \cdots, o_t , s_t= q_t, \lambda)\cdot P(o_1, \cdots,o_t,s_t=q_t |\lambda) \\ & = \sum_{i}P(o_{t+1}, \cdots, o_T|s_t=q_t, \lambda)\cdot P(o_1, \cdots, o_t, s_t=q_t | \lambda) \\ & = \sum_{i}\alpha_t(i)\beta_t(i)=\sum_iP(s_t=q_i, O|\lambda) \end{aligned}$

当 $t=T-1$ 和 $t=1$ 时，上式分别表示前向和后向概率计算公式.

一些概率计算公式

给定模型 $\lambda$ 和观测序列 $O$ ，时刻 $t$ 处于状态 $q_i$ 的概率，记作
$\gamma_t(i) = P(s_t =q_i | O, \lambda) = \frac{P(s_t=q_i,O | \lambda)}{P(O|\lambda)}=\frac{\alpha_t(i)\beta_t(i)}{\displaystyle\sum_{j}\alpha_t(j)\beta_t(j)}$

给定模型 $\lambda$ 和观测序列 $O$ ，时刻 $t$ 处于状态 $q_i$ 且时刻 $t+1$ 处于状态 $q_j$ 的概率，记作
$\xi_t(i, j) = P(s_t=q_i, s_{t+1}=q_j|O, \lambda) = \frac{P(s_t=q_i, s_{t+1}=q_j,O| \lambda)}{\displaystyle\sum_i\sum_jP(s_t=q_i, s_{t+1}=q_j, O|\lambda)}$

其中， $P(s_t=q_i, s_{t+1}=q_j, O|\lambda)=\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$ 。

HMM模型学习

问题描述：给定观测序列 $O = (o_1, o_2, \cdots, o_T)$ ，求最可能的HMM的 $\lambda=(A,B,\Pi)$ 。

监督学习方法

若有足够多的标记数据，即已知隐含状态 $m_j$ 出现的次数 $\#(m_j)$ 、生成观测状态 $v_k$ 的次数 $\#(v_k,m_j)$ ，则参数估计
$a_{ij}\approx\frac{\#(m_i,m_j)}{\#(m_i)},\quad b_j(k)\approx\frac{\#(v_k,m_j)}{\#(m_j)},\quad \pi_i\approx\frac{\#(m_i)}{\displaystyle\sum \#(m_k)}$

很多应用不可能做到这件事情，比如语音识别的声学模型训练，人无法确定产生某个语音的状态序列。

期望最大化算法

HMM的概率模型
$P(O|\lambda)=\sum_SP(O|S, \lambda)P(S|\lambda)$

EM算法中的Q函数
$Q(\lambda, \lambda')=\sum_SP(S|O,\lambda')\ln P(O,S|\lambda)\propto\sum_S P(O,S|\lambda')\ln P(O,S|\lambda)$
根据状态序列和观测序列的联合分布（下标 $i_j$ 表示任意隐状态编号）
$P(O,S|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)$
得
$Q(\lambda, \lambda')=\sum_SP(O,S|\lambda')\ln\pi_{i_1}+ \sum_SP(O,S|\lambda')\ln\sum_{t=1}^{T-1}a_{i_{t}i_{t+1}}+ \sum_SP(O,S|\lambda')\ln\sum_{t=1}^Tb_{i_t}(o_t) \\$
式中
$\begin{aligned} & \sum_SP(O,S|\lambda')\ln \pi_{i_1}=\sum_iP(O,s_1=q_i|\lambda')\ln\pi_{i},\quad\sum_i\pi_i=1\\ &\sum_SP(O,S|\lambda')\ln\sum_{t=1}^{T-1}a_{i_{t}i_{t+1}}=\sum_i\sum_jP(O,s_t=q_i,s_{t+1}=q_j|\lambda')\sum_{t=1}^{T-1}\ln a_{ij}\\ & \sum_SP(O,S|\lambda')\ln\sum_{t=1}^Tb_{it}(o_t)=\sum_iP(O,i_t=i|\lambda')\ln\sum_{i=1}^Tb_i(o_t) \end{aligned}$
对 $\pi_i$ ， $a_{ij}$ ， $b_j(k)$ 的偏导为0得（根据上节概率计算公式）
$\pi_i = \frac{P(O, s_1=q_i|\lambda')}{P(O|\lambda')}=\gamma_1(i),\quad a_{ij}=\frac{\sum_{i=1}^{T-1}\xi_t(i,j)}{\sum_{i=1}^{T-1}\gamma_t(i)},\quad b_j(k)=\frac{\sum_{t=1,o_t=v_k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)}$

HMM预测/解码

给定模型 $\lambda=(A,B,\Pi)$ 和观测序列 $O = (o_1, o_2, \cdots, o_T)$ ，求最可能的隐藏状态序列 $S$ ，即 $P(S|O, \lambda)$ .

贪心近似算法

给定 $\lambda$ 和观测序列 $O$ ，时刻 $t$ 处于状态 $q_i$ 的概率
$\gamma_t(i)=P(s_t=q_i | O, \lambda) = \frac{\alpha_t(i)\beta_t(i)}{\sum_{j}\alpha_t(j)\beta_t(j)}$
每个时刻t选择最可能出现的状态 $s_t^*$ ，从而得到状态序列 $S^*$ ，即
$S^*=(s_1^*,s_2^*,\cdots),\quad s_t^*=q_k = \arg\max_k\gamma_t(k)$

维特比算法

DP思想：最优路径中的部分路径也一定是最优的。设观测序列 $o_1,\cdots,o_t$ 下状态 $s_t=q_i$ 的所有路径中概率最大值为
$\delta_t(i) = \max_{i}P(s_t=q_i, s_{t-1}, \cdots, s_1， o_t, \cdots, o_1|\lambda)$

递推公式
$\delta_{t+1}(i)=\max_j\delta_t(j)a_{ji}b_i(o_{t+1}),\quad \delta_1(i) = \pi_ib_i(o_i)$

定义时刻 $t+1$ 状态为 $q_i$ 的最大概率路径的第 $t$ 个节点
$i_{t} = \psi_{t+1}(i) = \arg\max_{j}\delta_{t}(j)a_{ji},\quad i_T=\arg\max_{i}\delta_T(i)$

则 $P(S|O,\lambda)=\max_{i}\delta_T(i)$ .

如图所示 $\delta_3(i_1)=\max\{\delta_2(i_1)a_{11}b_{1}(o_3), \,\,\delta_2(i_2)a_{21}b_1(o_3),\,\, \delta_2(i_3)a_{31}b_1(o_3)\}$ .

示例： 基于第4解模型 $\lambda = (A, B, \Pi)$ ，已知观测序列 $O=(红, 白, 红)$ ，求最优状态序列。

I. 初始化
时刻 $t=1$ ，每一个隐藏状态 $q_i$ 观测到红色的概率
$\delta_1(1)=0.2*0.5=0.1, \quad \delta_1(2)=0.4*0.4=0.16, \quad \delta_1(3)=0.4*0.7=0.28, \quad \psi_1(i)=0$

II. 迭代计算
时刻 $t=2$ 状态为 $q_1$ 观测为白的最大概率
$\delta_2(1)=\max_{1\leq j \leq 3}[\delta_1(j)a_{j1}]b_1(o_2) = \max\{0.1*0.5, 0.16*0.3, 0.28*0.2\}*0.5 = 0.028, \quad \psi_2(1)=3$
同理 $\delta_2(2)=0.0504, \psi_2(2)=3; \, \delta_2(3)=0.042, \psi_2(3)=3$ .

时刻 $t=3$ 状态为 $q_j$ 观测为红的最大概率
$\delta_3(1)=0.00756,\ \psi_3(1)=2,\ \delta_3(2)=0.01008,\ \psi_3(2)=2,\ \delta_3(3)=0.0147,\ \psi_3(3)=3.$

III. 最优概率路径
$P^* = \max_{1\leq i \leq 3} \delta_3(i)=0.0147$
因此 $i_3 = 3$ ， $i_2 = \psi_3(i_3)=3$ ， $i_1 = \psi_2(i_2)=3$ ，最优状态序列 $I=(i_1, i_2, i_3)=(3,3,3)$ .

隐藏状态序列 $\boldsymbol s=(s_1, \cdots, s_n)$ ，观测序列 $\boldsymbol o=(o_1, \cdots, o_n)$ .

HMM局限

HMM建模联合概率分布 $\lambda=P(S, O)$ ，解码/预测问题是找到状态序列 $\boldsymbol s$ ，使得 $P(\boldsymbol s|\boldsymbol o, λ)$ 最大。

HMM中， $s_i$ 仅依赖 $s_{i-1}$ ， $o_i$ 依赖 $s_i$ ，若观测序列通过很多特征刻画，比如NER任务中标注 $s_i$ 不仅依赖 $o_i$ ，还依赖前后标注 $o_j(j\neq i)$ ，如周围观测的大小写、词性等特征，则HMM模型不能处理该类任务。

隐马尔可夫模型（HMM模型学习、概率计算、解码）