【机器学习】隐马尔可夫(二)----概率计算问题

前一篇说到隐马尔可夫有三个基本问题，其中概率计算问题是首当其冲需解决的问题。
概率计算问题就是在给定模型 $λ=(A,B,π)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算观测序列 $O$ 出现的概率 $P(O|λ)$

乘法公式的推广

在做隐马尔可夫公式推导前，我们需要复习一下概率乘法公式的推广。
若 $P(A_1A_2...A_{n-1})>0,n\ge2$
则 $P(A_1A_2...A_n)$
$=P(A_n|A_1A_2...A_{n-1})...P(A_3|A_1A_2)P(A_2|A_1)P(A_1)$
可以写成 $P(A_2...A_n|A_1)$
$=P(A_n|A_1A_2...A_{n-1})...P(A_3|A_1A_2)P(A_2|A_1)$
$\color{red}{换到此问题中来，我们可以将λ和O同时出现的联合概率写为}$
$\color{red}{P(O,I|λ)=P(O|I,λ)P(I|λ)}$

直接计算

直接计算是最简单粗暴的方法，即列举长度为 $T$ 的状态序列 $I$ 的所有可能序列，对每一个可能的状态序列 $I_x$ 求其与观测序列 $O$ 的联合概率 $P(O,I_x|λ)$ ，然后对其求和得 $\sum\limits_{x}P(O,I_x|λ)=P(O|λ)$ 。

①列举所有可能的状态序列 $I_x=(i_1,i_2,...,i_T)$

状态序列长度为 $T$ ，即 $t=1,2,...,T$ 。每个时刻状态 $i_t$ 有 $N$ 种可取状态，因此所有可能的状态序列数为 $N^T$

②计算 $O$ 和每种状态序列 $I_x$ 同时出现的联合概率 $P(O,I_x|λ)$

$P(O,I_x|λ)=P(O|I_x,λ)P(I_x|λ)$
可以看做分为三步：
第一步：求给定模型 $λ$ 条件下出现状态序列 $I_x$ 的概率
由要求可知，我们需要用到初始状态概率 $π$ 和状态转移概率矩阵 $A$
$P(I_x|λ)=π_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$

第二步：对给定的状态序列 $I_x$ 和模型 $λ$ 的条件下观测序列 $O$ 的概率
由要求可知，我们需要用到初始状态概率 $π$ 和观测概率矩阵 $B$
$P(O|I_x,λ)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$

第三步：将前两步得到的相乘
$P(O,I_x|λ)=P(O|I_x,λ)P(I_x|λ)$
$=π_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$
有 $2T$ 项相乘

③对所有可能的状态序列 $I_x$ 求和，得到 $P(O|λ)$

$P(O|λ)=\sum\limits_{x}^{N^T}P(O,I_x|λ)$
计算量为 $O(2T·N^T )=O(TN^T)$ ，计算量呈指数级，因此用这种直接计算的方法很困难。

前向-后向算法

利用前向算法和后向算法都可以得到观测序列概率 $P(O|λ)$

$\color{blue}{a_{jk}和b_k(o_{t+1})}$

回忆一下状态转移概率 $a_{jk}$ 和观测概率 $b_k(o_{t+1})$ ，它们会在前向算法和后向算法中用到
$a_{jk}=P(i_{t+1}=q_k|i_t=q_j)$
$b_k(o_{t+1})=P(o_{t+1}|i_{t+1}=q_k)$

$\color{blue}{前向算法}$

前向概率定义

给定隐马尔可夫模型 $λ$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_j$ 的概率为前向概率，记作 $α_t(j)=P(o_1,o_2,...,o_t,i_t=q_j|λ)$

第一步：根据这些概率我们可以找到 $α_{t+1}(k)$ 与 $α_t(j)$ 的关系
① $α_t(j)·a_{jk}=P(o_1,o_2,...,o_t,i_t=q_j|λ)·P(i_{t+1}=q_k|i_t=q_j)$
$=P(o_1,o_2,...,o_t,i_t=q_j,i_{t+1}=q_k|λ)$
② $\sum\limits_{j=1}^Nα_t(j)·a_{jk}=\sum\limits_{j=1}^NP(o_1,o_2,...,o_t,i_t=q_j,i_{t+1}=q_k|λ)$
$=P(o_1,o_2,...,o_t,i_{t+1}=q_k|λ)$
③ $[\sum\limits_{j=1}^Nα_t(j)·a_{jk}]·b_k(o_{t+1})$
$=P(o_1,o_2,...,o_t,i_{t+1}=q_k|λ)·P(o_{t+1}|i_{t+1}=q_k)$
$=P(o_1,o_2,...,o_t,o_{t+1},i_{t+1}=q_k|λ)=α_{t+1}(k)$
计算量为 $N$
第二步：获取初值 $α_1(j)$ 并递推至 $α_T(j)$
初值： $α_1(j)=π_jb_j(o_1)=P(i_1=q_j|λ)·P(o_1|i_1=q_j)$
递推：对于 $t=1,2,...,T-1$
$α_{t+1}(k)=[\sum\limits_{j=1}^Nα_t(j)·a_{jk}]·b_k(o_{t+1})$
计算量为 $1+T-1=T$
第三步：求 $P(O|λ)$
$P(O|λ)=\sum\limits_{k=1}^Nα_T(k)=\sum\limits_{k=1}^NP(o_1,o_2,...,o_T,i_T=q_k|λ)$
$=P(o_1,o_2,...,o_T|λ)=P(O|λ)$
计算量为 $N$

总的计算量为 $O(N·T·N)=O(N^2T)$

$\color{blue}{后向算法}$

与前向算法类似

后向概率定义

给定隐马尔可夫模型 $λ$ ，定义在时刻 $t$ 状态为 $q_j$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},...,o_T$ 的概率为后向概率，记作 $β_t(j)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_j,λ)$

第一步：根据这些概率我们可以找到 $β_t(j)$ 与 $β_{t+1}(k)$ 的关系
① $β_{t+1}(k)·b_k(o_{t+1})·a_{jk}$
$=P(o_{t+2},o_{t+3},...,o_T|i_{t+1}=q_k,λ)·P(o_{t+1}|i_{t+1}=q_k)·P(i_{t+1}=q_k|i_t=q_j)$
$=P(o_{t+1},o_{t+2},o_{t+3},...,o_T,i_{t+1}=q_k|i_t=q_j,λ)$
② $\sum\limits_{k=1}^Nβ_{t+1}(k)·b_k(o_{t+1})·a_{jk}$
$=\sum\limits_{k=1}^NP(o_{t+1},o_{t+2},o_{t+3},...,o_T,i_{t+1}=q_k|i_t=q_j,λ)$
$=P(o_{t+1},o_{t+2},o_{t+3},...,o_T|i_t=q_j,λ)$
$=β_t(j)$
计算量为 $N$
第二步：获取初值 $β_T(j)$ 并递推至 $β_1(j)$
初值： $β_T(j)=1$
递推：对于 $t=T-1,T-2,...,1$
$β_t(j)=\sum\limits_{k=1}^Nβ_{t+1}(k)·b_k(o_{t+1})·a_{jk}$
计算量为 $1+T-1=T$
第三步：求 $P(O|λ)$
$P(O|λ)=\sum\limits_{j=1}^Nβ_1(j)·b_j(o_{t+1})·π_j$
$=\sum\limits_{j=1}^NP(o_2,o_3,...,o_T|i_1=q_j,λ)·P(o_1|i_1=q_j)·P(i_1=q_j|λ)$
$=\sum\limits_{j=1}^NP(o_1,o_2,o_3,...,o_T,i_1=q_j|λ)$
$=P(o_1,o_2,o_3,...,o_T|λ)=P(O|λ)$
计算量为 $N$

总的计算量为 $O(N·T·N)=O(N^2T)$

$\color{red}{利用前向概率和后向概率的定义，可以将观测序列概率P(O|λ)写成}$
$\color{red}{P(O|λ)=\sum\limits_{j=1}^N\sum\limits_{k=1}^Nα_t(j)a_{jk}b_k(o_{t+1})β_{t+1}(k)}$
$\color{red}{t=1,2,...,T-1}$

$\color{blue}{通过前向、后向概率求状态概率和期望}$

状态概率

单个状态：
给定模型 $λ$ 和观测序列 $O$ ，在 $t$ 时刻处于状态 $q_j$ 的概率记为：
　　　　　　　　 $γ_t(j)=P(i_t=q_j|O,λ)$
　　　　　　　　
找出其和前向概率 $α_t(j)$ 和后向概率 $β_t(j)$ 的关系：
$γ_t(j)=P(i_t=q_j|O,λ)=\frac{P(i_t=q_j,O|λ)}{P(O|λ)}=\frac{α_t(j)β_t(j)}{\sum\limits_{k=1}^Nα_t(k)β_t(k)}$

两个状态同时：
给定模型 $λ$ 和观测序列 $O$ ，在 $t$ 时刻处于状态 $q_j$ 且在 $t+1$ 时刻处于状态 $q_k$ 的概率记为： $ξ_t(j,k)=P(i_t=q_j,i_{t+1}=q_k|O,λ)$

找出其和前向概率 $α_t(j)$ 和后向概率 $β_t(j)$ 的关系：
$ξ_t(j,k)=\frac{P(i_t=q_j,i_{t+1}=q_k,O|λ)}{P(O|λ)}=\frac{α_t(j)a_{jk}b_k(o_{t+1})β_{t+1}(k)}{\sum\limits_{j=1}^N\sum\limits_{k=1}^Nα_t(j)a_{jk}b_k(o_{t+1})β_{t+1}(k)}$

期望

(1)在观测序列 $O$ 下状态 $j$ 出现的期望值为 $\sum\limits_{t=1}^Tγ_t(j)$
(2)在观测序列 $O$ 下由状态 $j$ 转移的期望值为 $\sum\limits_{t=1}^{T-1}γ_t(j)$
(3)在观测序列 $O$ 下由状态 $j$ 转移到状态 $k$ 的期望值为 $\sum\limits_{t=1}^{T-1}ξ_t(j,k)$