隐马尔可夫模型二(公式推导)

前面一篇介绍了隐马尔科夫模型的基本的一些概念，篇主要介绍三个问题的具体解决方法。如果对于概念不太理解的可以参考前一篇博客HMM模型基本概念，本篇博客主要介绍对于三个问题的主要推倒，内容主要基于统计学习方法这本书，但是在上面加上了一些自己的理解。下面一一介绍三个问题以及解决的办法。

概率问题

给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。

直接计算法

直接计算法说白了就是暴力计算每一种情况的可能。对于所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ，即:

P (O | λ) = \sum_{I} P (O | I, λ) P (I | λ)

$P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)$

= \sum_{i_{1}, i_{2}, . . ., i_{T}} π_{i_{1}} b_{i_{1}} (o_{1}) a_{i_{1} i_{2}} b_{i_{2}} (o_{2}) . . . a_{i_{T - 1} i_{T}} b_{i_{T}} (o_{T})

$=\sum_{i_1,i_2,...,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$

这种计算的缺点在于计算量很大，时间复杂度为 $O(TN^T)$ 。

前向后向算法

前向后向算法的核心是利用动态规划的思想减少计算的时间复杂度。

图1

前向算法

前向概率 给定隐马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率为前向概率，记作

α_{t} (i) = P (o_{1}, o_{2}, . . ., o_{t}, i_{t} = q_{i} | λ) (1)

$\alpha_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)\quad (1)$

然后可以递推求出前向概率 $\alpha_t(i)$ 以及观测序列 $P(O|\lambda)$

盒子	1	2	3	4
红球数	5	3	6	8
白球数	5	7	4	2

那么这个前向概率到底是什么意思呢？估计好多人还是看的一脸懵逼。还是以之前的盒子与球模型,观测序列为 $O=\{红,红,白,白,红\}$ ，假设 $t=3,i=1$ ,后面的序列我们不知道,那么 $\alpha_t(i)=P(O=\{红,红,白\},i=1|\lambda)$ 。即前面观测序列为[红,红,白],第三次丑的白色球是从盒子1中抽出的概率。

下面是对前向算法的形式化推导。

输入：隐马尔科夫模型 $\lambda$ ,观测序列为 $O$ ;

输出：观测序列概率 $P(O|\lambda)$ ;

1.初值

α_{1} (i) = π_{i} b_{i} (o_{1}) (2)

$\alpha_1(i)=\pi_i b_i(o_1)\quad (2)$

即求第一个观测值对应的状态为 $i$ 的概率

2.递推，对t=1,2,…,T-1,

α_{t + 1} (i) = [\sum_{j = 1}^{N} α_{t} (j) a_{j i}] b_{i} (o_{t + 1}), i = 1, 2, . . . ., N (3)

$\alpha_{t+1}(i)=[\sum_{j=1}^N\alpha_t(j)a_{ji}]b_i(o_{t+1}),\quad i=1,2,....,N\quad (3)$

3.终止

P (O | λ) = \sum_{i = 1}^{N} α_{T} (i) (4)

$P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)\quad (4)$

上面这段公式推导的思想为，先求观测值为 $o_1$ 的概率，然后在前面的基础上求观测值为 $o_2$ 对应的概率,依次递推，最后求观测值为 $o_t$ 的概率。然后每一种概率对应了不同的状态， $\alpha_t(i)$ 则表示在状态为 $i$ 时的概率，而 $P(o_1,o_2,...,o_t,i_T=q_i|\lambda)$ ，然后然后对 $i$ 求和就能够得到上述(3)式。其递推过程图如下：

图2

前向算法就是利用这种方式将时间复杂度从 $O(TN^T)$ 降低到 $O(TN^2)$ ,至于降低的原因是减少直接利用了前面的计算结果，避免了每一次都需要重新计算。

还是以盒子与球模型为例， $\lambda=(A,B,\pi)$ ,状态集合 $Q=\{1,2,3\}$ ,观测集合 $V=\{红,白\}$ .

设 $T=3$ , $O=\{红,白,红\}$ ，求 $P(O|\lambda)$

1.计算初值

α_{1} (1) = π_{1} b_{1} (o_{1}) = 0.2 \times 0.5 = 0.10

$\alpha_1(1)=\pi_1b_1(o_1)=0.2\times 0.5=0.10$

α_{1} (2) = π_{2} b_{2} (o_{1}) = 0.4 \times 0.4 = 0.16

$\alpha_1(2)=\pi_2b_2(o_1)=0.4\times 0.4=0.16$

α_{1} (3) = π_{3} b_{3} (o_{1}) = 0.4 \times 0.7 = 0.28

$\alpha_1(3)=\pi_3b_3(o_1)=0.4\times 0.7=0.28$

2.递推计算

α_{2} (1) = [\sum_{j = 1}^{3} α_{1} (j) a_{j_{1}}] b_{1} (o_{2})

$\alpha_2(1)=[\sum_{j=1}^3\alpha_1(j)a_{j_1}]b_1(o_2)$

= (0.10 \times 0.5 + 0.16 \times 0.3 + 0.28 \times 0.2) = 0.154 \times 0.5 = 0.77

$=(0.10\times 0.5+0.16\times 0.3+0.28\times0.2)=0.154\times0.5=0.77$

α_{2} (2) = [\sum_{j = 1}^{3} α_{1} (j) a_{j 2}] b_{2} (o_{2})

$\alpha_2(2)=[\sum_{j=1}^3\alpha_1(j)a_{j2}]b_2(o_2)$

α_{2} (3) = [\sum_{j = 1}^{3} α_{1} (j) a_{j 3}] b_{3} (o_{2})

$\alpha_2(3)=[\sum_{j=1}^3\alpha_1(j)a_{j3}]b_3(o_2)$

同理可以得到

α_{3} (1) = [\sum_{j = 1}^{3} α_{2} (j) a_{j 1}] b_{1} (o_{3}) = 0.04187

$\alpha_3(1)=[\sum_{j=1}^3\alpha_2(j)a_{j1}]b_1(o_3)=0.04187$

α_{3} (2) = [\sum_{j = 1}^{3} α_{2} (j) a_{j 2}] b_{2} (o_{3}) = 0.03551

$\alpha_3(2)=[\sum_{j=1}^3\alpha_2(j)a_{j2}]b_2(o_3)=0.03551$

α_{3} (3) = [\sum_{j = 1}^{3} α_{2} (j) a_{j 3}] b_{3} (o_{3}) = 0.05284

$\alpha_3(3)=[\sum_{j=1}^3\alpha_2(j)a_{j3}]b_3(o_3)=0.05284$

3.终止

P (O | λ) = \sum_{j = 1}^{3} α_{3} (j) = 0.13022

$P(O|\lambda)=\sum_{j=1}^3\alpha_3(j)=0.13022$

前向算法清楚了，其实后向概率也就清楚了。其本质就是和前向算法的思想是一样的，只不过方向相反，从后往前计算。以下图为例,先计算的是 $q_t$ 的概率，然后在计算 $q_{t-1}$ 的概率，以此类推。下面直接给出定义以及推导。

后向算法

后向概率 $\quad$ 给定隐马尔科夫模型 $\lambda$ ,定义在 $t$ 时刻状态为 $q_t$ ，从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},...,o_{T}$ 的概率为后向概率，记作

β_{t} (i) = P (o_{t + 1}, o_{t + 2}, . . ., o_{T} | i_{t} = q_{i}, λ)

$\beta_t(i)=P(o_{t+1},o_{t+2},...,o_{T}|i_t=q_i,\lambda)$

然后可以利用递推从后向前求解得到 $P(O|\lambda)$ ，计算过程如下：

1.首先，对于最终时刻的所有状态 $q_i$ 规定 $\beta_T(i)=1$ ,即：

β_{T} (i) = 1, 1, 2, . . ., N (5)

$\beta_T(i)=1,\quad 1,2,...,N\quad (5)$

本来应该对于这一步应该像前向算法一样存在初始状态概率，但是后向算法将初始概率放到最后一步计算，所有令 $\beta_T(i)$ 规定为=1

2.对于 $t=T-1,T-2,...,1$

β_{t} (i) = [\sum_{j = 1}^{N} β_{t + 1} (j) a_{j_{i}}] b_{i} (o_{t}) (6)

$\beta_t(i)=[\sum_{j=1}^N\beta_{t+1}(j)a_{j_i}]b_i(o_t)\quad (6)$

这一步和书上不一样的，个人感觉这一步书上的写法是错误的。

3.终止

P (O | λ) = \sum_{i = 1}^{N} π_{i} b_{i} (o_{1}) β_{1} (i) (7)

$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)\quad (7)$

并且可以将前向后向概率统一：

P (O | λ) = \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j) (8)

$P(O|\lambda)=\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)\quad (8)$

最后化简能够得到

P (O | λ) = \sum_{i = 1}^{N} α_{t + 1} (i) β_{t + 1} (i) (9)

$P(O|\lambda)=\sum_{i=1}^N\alpha_{t+1}(i)\beta_{t+1}(i)\quad (9)$

老实说前向后向算法其实就是同一个东西，没太懂为什么要使用前向后向算法，明明前向算法就能得到结果。难道是前后同时计算速度更快？o(╯□╰)o

一些期望

这一部分主要是简化一些符号，为后面的计算做准备。

1.给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率，记为：

γ_{i} = P (i_{t} = q_{i} | O, λ)

$\gamma_i=P(i_t=q_i|O,\lambda)$

可以通过前向后向概率计算。

γ_{i} (i) = \frac{P (i_{t} = q_{i} | O, λ)}{P (O | λ)}

$\gamma_i(i)=\frac{P(i_t=q_i|O,\lambda)}{P(O|\lambda)}$

而

P (i_{t} = q_{i} | O, λ) = α_{t} (i) β_{t} (i)

$P(i_t=q_i|O,\lambda)=\alpha_t(i)\beta_t(i)$

所以有

γ_{t} (i) = \frac{α_{t} (i) β_{t} (i)}{\sum_{i = 1}^{N} α_{t} (i) β_{t} (i)} (9)

$\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum_{i=1}^N\alpha_t(i)\beta_t(i)}\quad (9)$

2.给定模型 $\lambda$ 和观测 $O$ ,在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t+1$ 处于状态 $q_j$ 的概率，记

ξ_{t} (i, j) = P (i_{t} = q_{i}, i_{t + 1} = q_{j} | O, λ) (10)

$\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_j|O,\lambda)\quad (10)$

所以有

ξ_{t} (i, j) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)} (11)

$\xi_t(i,j)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_{t}(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}\quad (11)$

3.一些有用的期望

1)在观测 $O$ 下状态 $i$ 出现的期望值

\sum_{t = 1}^{T} γ_{t} (i) (12)

$\sum_{t=1}^T\gamma_t(i)\quad (12)$

2)在观测 $O$ 下由状态 $i$ 转移的期望值

如上图所示，从状态 $t$ 出发，到其他的状态则称为状态转移，由于最后一个状态是不能转移到下一个状态因此,状态转移的期望值为：

\sum_{t = 1}^{T - 1} γ_{t} (i) (13)

$\sum_{t=1}^{T-1}\gamma_t(i)\quad (13)$

3).在观测为 $O$ 下，由状态 $i$ 转移到状态 $j$ 的期望值为：

\sum_{t = 1}^{T - 1} ξ_{t} (i, j) (14)

$\sum_{t=1}^{T-1}\xi_t(i,j)\quad (14)$

学习问题

学习问题是为了计算模型参数。在已经给定了观测序列 $O$ ，根据是否给定状态序列 $I$ 可以分为监督学习方法和非监督学习方法。监督学习的方法可以利用极大似然，非监督学习主要是利用Baum-Welch算法。

Baum-Welch算法

给定训练集数据为S个长度为 $T$ 的观测序列 $O=\{O_1,O_2,...,O_s\}$ ，而没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda=(A,B,\pi)$ ,观测序列为 $O$ ，状态序列为 $I$ ，那么我们可以将 $P(O|\lambda)$ 变成包含隐变量的概率模型：

P (O | λ) = \sum_{I} P (O | I, λ) P (I | λ) (15)

$P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)\quad (15)$

然后可以通过EM算法学习参数，步骤如下：

1.确定完全数据的对数似然函数

观测序列数据为 $O=(o_1,o_2,...,o_T)$ ,状态序列数据(隐数据)为 $I=(i_1,i_2,...,i_t)$ ，完全数据为 $(O,I)$ ,所以完全数据的对数似然函数为 $logP(O,I|\lambda)$

2.EM算法的E步，求 $Q$ 函数 $Q(\lambda,\bar\lambda)$

Q (λ, \bar{λ}) = \sum_{I} P (O, I | \bar{λ}) l o g P (O, I | λ) (16)

$Q(\lambda,\bar \lambda)=\sum_IP(O,I|\bar \lambda)logP(O,I|\lambda)\quad (16)$

其中

P (O, I | λ) = π_{i_{1}} b_{i_{1}} (o_{1}) a_{i_{1} i_{2}} b_{i_{2}} (o_{2}) . . . . a_{i_{T - 1} i_{T}} b_{i_{T}} (o_{T})

$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_{1})a_{i_1i_2}b_{i_2}(o_2)....a_{i_{T-1}i_T}b_{i_T}(o_T)$

所以有：

Q (λ, \bar{λ}) = \sum_{I} P (O, I | \bar{λ}) {l o g π_{i_{1}} + \sum_{t = 1}^{T - 1} l o g a_{i_{t} i_{t + 1}} + \sum_{t = 1}^{T} b_{i_{t}} (o_{t})} (17)

$Q(\lambda,\bar\lambda)=\sum_IP(O,I|\bar\lambda)\left\{log\pi_{i_1}+\sum_{t=1}^{T-1}log\;a_{i_ti_{t+1}}+\sum_{t=1}^Tb_{i_t}(o_t)\right\}\quad (17)$

这里不得不吐槽一下李航统计学习方法的符号写法，看了半天才明白到底是怎么写的。

3.EM的M步，极大化 $Q$ 函数

可以将上述 $Q$ 函数拆分为三项，其中第一项为

\sum_{I} P (O, I | \bar{λ}) l o g π_{i_{1}}

$\sum_IP(O,I|\bar\lambda)log\pi_{i_1}$

并且有 $\sum_{i=1}^N\pi_i=1$ ,然后利用拉格朗日乘子法，写出拉格朗日函数：

\sum_{i = 1}^{N} l o g π_{i} P (O, i_{1} = i | \bar{λ}) + γ (\sum_{i = 1}^{N} π_{i} - 1)

$\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar\lambda)+\gamma\left(\sum_{i=1}^N\pi_i-1\right)$

对齐求偏导并且令结果为0，于是有

\frac{\partial}{\partial π_{i}} [\sum_{i = 1}^{N} π_{i} P (O, i_{1} = i | \bar{λ}) + γ {\sum_{i = 1}^{N} π_{i} - 1}] = 0 (17)

$\frac{\partial}{\partial \pi_i}\left[\sum_{i=1}^N\pi_iP(O,i_1=i|\bar\lambda)+\gamma\left\{\sum_{i=1}^N\pi_i-1\right\}\right]=0\quad (17)$

得

P (O, i_{1} = i | \bar{λ}) + γ π_{i} = 0 (18)

$P(O,i_1=i|\bar\lambda)+\gamma\pi_i=0\quad (18)$

两边同时对 $i$ 求和有

γ = - P (O | \bar{λ})

$\gamma=-P(O|\bar\lambda)$

带入到上一步有

π_{i} = \frac{P (O, i_{1} = i | \bar{λ})}{P (O | \bar{λ})} (19)

$\pi_i=\frac{P(O,i_1=i|\bar\lambda)}{P(O|\bar\lambda)}\quad (19)$

第二项可以写成

\sum_{I} P (O, I | \bar{λ}) (\sum_{t = 1}^{T - 1} l o g a_{i_{t} i_{t + 1}}) = \sum_{i = 1}^{N} \sum_{j = 1}^{N} \sum_{t = 1}^{T - 1} P (O, i_{t} = i, i_{t + 1} = j | \bar{λ}) l o g a_{i j} (20)

$\sum_IP(O,I|\bar\lambda)\left(\sum_{t=1}^{T-1}loga_{i_ti_{t+1}}\right)=\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar\lambda)loga_{ij}\quad (20)$

和上面的类似，有约束条件 $\sum_{j=1}^Na_{ij}=1$ 和 $\sum_{i=1}^Na_{ij}=1$ 的拉格朗日乘子法可求出

\sum_{i = 1}^{N} \sum_{j = 1}^{N} \sum_{t = 1}^{T - 1} P (O, i_{t} = i, i_{t + 1} = j | \bar{λ}) l o g a_{i j} + γ (\sum_{j = 1}^{N} a_{i j - 1})

$\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar\lambda)loga_{ij}+\gamma(\sum_{j=1}^Na_{ij-1})$

两边同时对 $a_{ij}$ 求导得

\sum_{t = 1}^{T - 1} P (O, i_{t} = i, i_{t + 1} = j | \bar{λ}) + γ a_{i j} = 0 (21)

$\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar\lambda)+\gamma a_{ij}=0\quad (21)$

两边同时对 $j$ 求和有

γ = - \sum_{t = 1}^{T - 1} P (O, i_{t} = i | \bar{λ}) (22)

$\gamma = -\sum_{t=1}^{T-1}P(O,i_t=i|\bar\lambda)\quad (22)$

将式(22)带入(21)有

a_{i j} = \frac{\sum_{t = 1}^{T - 1} P (O, i_{t} = i, i_{t + 1} = j | \bar{λ})}{\sum_{t = 1} T - 1 P (O, i_{t} = i, | \bar{λ})} (23)

$a_{ij}=\frac{\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar\lambda)}{\sum_{t=1}{T-1}P(O,i_t=i,|\bar\lambda)}\quad (23)$

然后是对 $b_j(k)$ 的计算

\sum_{I} P (O, I | \bar{λ}) (\sum_{t = 1}^{T} l o g b_{i_{t}} (o_{t})) = \sum_{j = 1}^{N} \sum_{t = 1}^{T} P (O, i_{t} = j | \bar{λ}) l o g b_{j} (o_{t}) (24)

$\sum_IP(O,I|\bar\lambda)\left(\sum_{t=1}^Tlogb_{i_t}(o_t)\right)=\sum_{j=1}^N\sum_{t=1}^{T}P(O,i_t=j|\bar\lambda)logb_j(o_t)(24)$

并且约束条件为 $\sum_{k=1}^Mb_j(k)=1$

所以构造的拉格朗日函数为

\sum_{j = 1}^{N} \sum_{t = 1}^{T} P (O, i_{t} = j | \bar{λ}) l o g b_{j} (o_{t}) + γ (\sum_{k = 1}^{M} b_{j} (k) - 1) = 0

$\sum_{j=1}^N\sum_{t=1}^{T}P(O,i_t=j|\bar\lambda)logb_j(o_t)+\gamma(\sum_{k=1}^Mb_j(k)-1)=0$

对 $b_j(k)$ 求导有

\frac{\partial}{\partial b_{j} (k)} [\sum_{j = 1}^{N} \sum_{t = 1}^{T} P (O, i_{t} = j | \bar{λ}) l o g b_{j} (o_{t}) + γ (\sum_{k = 1}^{M} b_{j} (k) - 1)] = 0

$\frac{\partial}{\partial b_j(k)}\left[\sum_{j=1}^N\sum_{t=1}^{T}P(O,i_t=j|\bar\lambda)logb_j(o_t)+\gamma(\sum_{k=1}^Mb_j(k)-1)\right]=0$

注意，只有当 $o_t=k$ 时，偏导才不为0所以有

\sum_{t = 1}^{T} P (O, i_{t} = j | \bar{λ}) I (o_{t} = k) + γ b_{j} (k) = 0 (25)

$\sum_{t=1}^TP(O,i_t=j|\bar\lambda)I(o_t=k)+\gamma b_j(k)=0\quad (25)$

所以同时k求和,并且我们很容易得出 $\sum_{k=1}^MI(o_t=k)=1$

γ = - \sum_{t = 1}^{T} P (O, o_{t} = j | \bar{λ}) (26)

$\gamma =-\sum_{t=1}^T P(O,o_t=j|\bar\lambda)\quad (26)$

所以将式子(26)带入(25)则有

b_{j} (k) = \frac{\sum_{t = 1}^{T} P (O, i_{t} = j | \bar{λ}) I (o_{t} = k)}{\sum_{t = 1}^{T} P (O, i_{t} = j | \bar{λ})}

$b_j(k)=\frac{\sum_{t=1}^TP(O,i_t=j|\bar\lambda)I(o_t=k)}{\sum_{t=1}^TP(O,i_t=j|\bar\lambda)}$

Baum-Welch参数估计公式

a_{i j} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)}

$a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$

b_{j} (k) = \frac{\sum_{t = 1, o_{t} = k}^{T} γ_{t} (j)}{\sum_{t = 1}^{T} γ_{t} (j)}

$b_j(k)=\frac{\sum_{t=1,o_t=k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma _t(j)}$

π_{i} = γ_{1} (i)

$\pi_i=\gamma_1(i)$

预测算法

回到上一篇博客的内容，预测问题是个什么问题呢？预测问题也叫做解码问题，即给定隐马尔科夫模型参数 $\lambda=(A,B,\pi)$ ,以及观测序列 $O=(o_1,o_2,o_3,...,o_t)$ ,求 $P(I|O)$ ,即最有可能出现的状态

解决上面的问题主要有两种方法，一种是近似算法，另外一种是维比特算法。

近似算法

近似算法的思想其实很简单，在每一个 $t$ 时刻选择最可能出现的状态 $i_t^*$ ，从而得到一个近似状态 $I^*=(i_1^*,i_2^*,...,i_T^*)$ 。

在t时刻处于 $q_i$ 的状态的概率为 $\gamma_t(i)$

所以在每一个t时刻最有可能的状态为

i_{t}^{*} = a r g m a x [γ_{t} (i)], t = 1, 2, 3.. T, 1 \leq t \leq N

$i_t^*=arg\;max[\gamma_t(i)],\quad t=1,2,3..T,\quad 1\leq t\leq N$

从而得到状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$ .但是这种方法只保证了每一个t时刻最有可能的状态，不能保证整体，有点贪心的思想在里面

维比特算法

维比特算法其实就是利用动态规划的思想来求最大路径，类似于以前学的利用动态规划解决最短路径问题。文字描述什么的感觉不容易理解，直接上例子感觉跟容易理解。但是在说明例子之前，我们先定义两个符号 $\delta$ 和 $\psi$ 方便后面的计算。

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $(i_1,i_2,...,i_T)$ 中概率最大的值为

δ_{t} (i) = max_{i_{1}, i_{2}, . . ., i_{T}} P (i_{t} = i | λ), i = 1, 2, . . ., N, (28)

$\delta_t(i)=\max_{i_1,i_2,...,i_T}P(i_t=i|\lambda),\quad i=1,2,...,N,\quad (28)$

定义在时刻 $t$ 状态为 $i$ 的所有单个儿路径 $(i_1,i_2,...,i_{t-1},i)$ 中最大概率的路径的第 $t-1$ 个节点为

ψ_{t} (i) = a r g max_{1 \leq j \leq N} ψ_{t_{1}} (j) a_{j i}

$\psi_t(i)=arg\max_{1\leq j\leq N}\psi_{t_1}(j)a_{ji}$

下面直接符号化维比特算法具体过程

输入：模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,...,o_T)$

输出：最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$

1)初始化

δ_{1} (i) = π_{i} b_{i} (o_{1}), i = 1, 2, . . ., N

$\delta_1(i)=\pi_ib_i(o_1),\quad i=1,2,...,N$

ψ_{1} (i) = 0

$\psi_1(i)=0$

2)递推：对于 $t=1,2,3...,T$

δ_{1} (i) = max_{1 \leq j \leq N} [δ_{t - 1} (i) a_{j i}] b_{i} (o_{t}), i = 1, 2, . . ., N

$\delta_1(i)=\max_{1\leq j\leq N}[\delta_{t-1}(i)a_{ji}]b_i(o_t),\quad i=1,2,...,N$

ψ_{i} (t) = a r g max_{1 \leq i \leq N} [δ_{t - 1} a_{j i}], i = 1, 2, . . ., N

$\psi_i(t)=arg\max_{1\leq i\leq N}[\delta_{t-1}a_{ji}],\quad i=1,2,...,N$

3).终止

P^{*} = max_{1 \leq i \leq N} δ_{T} (i)

$P^*=\max_{1\leq i\leq N}\delta_T(i)$

i_{t}^{*} = a r g max_{1 \leq i \leq N} [δ_{T} (i)]

$i_t^*=arg\max_{1\leq i\leq N}[\delta_T(i)]$

4).最优路径回溯。对于 $t=T-1,T-2,...,1$

I^{*} = (i_{1}^{*}, i_{2}^{*}, i_{3}^{*} . . ., i_{T}^{*})

$I^*=(i_1^*,i_2^*,i_3^*...,i_T^*)$

那么具体过程是什么样的呢？

还是以上盒子与球的模型为例

已知观测序列为 $O=(红,白,红)$ ，试求最优状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$

(1)初始化，代入公式有

δ_{1} (1) = 0.10, δ_{1} (2) = 0.16, δ_{1} (3) = 0.28

$\delta_1(1)=0.10,\;\delta_1(2)=0.16,\;\delta_1(3)=0.28$
记

ψ_{1} (i) = 0, i = 1, 2, 3

$\psi_1(i)=0,\quad i=1,2,3$

最优路径求求截图如上

(2)t=2的时候如何计算呢，这里以 $t=2,i=1$ 为例

δ_{2} (1) = max_{1 \leq j \leq 3} [δ_{1} (j) a_{j 1} b_{1} (o_{2})]

$\delta_2(1)=\max_{1\leq j\leq 3}[\delta_1(j)a_{j1}b_1(o_2)]$

= max_{j} {0.1 \times 0.5, 0.16 \times 0.3, 0.28 \times 0.2} \times 0.5

$=\max_{j}\{0.1\times 0.5,0.16\times 0.3,0.28\times 0.2\}\times 0.5$

= 0.028

$=0.028$

根据计算得到当前路径从3到1的概率最大，所以有 $\psi_2(1)=3$ 根据上面的公式计算得到：

δ_{2} (2) = 0.0504, ψ_{2} (2) = 3

$\delta_2(2)=0.0504,\quad \psi_2(2)=3$

δ_{2} (3) = 0.042, ψ_{2} (3) = 3

$\delta_2(3)=0.042,\quad \psi_2(3)=3$

δ_{3} (1) = 0.0.0756, ψ_{3} (1) = 2

$\delta_3(1)=0.0.0756,\quad \psi_3(1)=2$

δ_{3} (2) = 0.01008, ψ_{3} (2) = 2

$\delta_3(2)=0.01008,\quad \psi_3(2)=2$

δ_{3} (3) = 0.0147, ψ_{3} (3) = 3

$\delta_3(3)=0.0147,\quad \psi_3(3)=3$

所以最优路径概率为 $P^*=0.0147$

(3)倒推最优路径

最优路径最有一个状态对应的是3，而 $\psi_3(3)=3$ ，所以第二个状态为3，而 $\psi_2(3)=3$ ，因此第一个状态也为3

所以最优路径为

I^{*} = (i_{1}^{*}, i_{2}^{*}, i_{3}^{*}) = (3, 3, 3)

$I^*=(i_1^*,i_2^*,i_3^*)=(3,3,3)$

HMM就这样水完了，感觉这篇博客写得像个草稿，有时间再将思想凝练下吧，暂时就这样窘o(╯□╰)o

参考文献

1.隐马尔可夫(HMM)、前/后向算法、Viterbi算法再次总结

2.统计学习方法，李航