参考资料：

1 马尔可夫链

1.1 定义

在这里插入图片描述
直观含义：在已知现在的条件下，过去与未来相互独立。

1.2 马尔可夫模型

在这里插入图片描述

根据定义，A 必为方阵

其中， $p_{ij}(n)=P\lbrace X_{n+1}=j|X_n=i\rbrace$ 称为一步转移概率。

在这里插入图片描述
$n$ 步转移的性质： $P^{(n)}=P^n$

在这里插入图片描述
$p_j(n)=\sum\limits_{i\in I}p_ip_{ij}^n=P^T(0)P^{(n)}$

1.3 例

在这里插入图片描述

2 隐马模型（HMM）

2.1 模型定义

在这里插入图片描述

2.2 基本问题

在这里插入图片描述

2.3 相关算法

2.3.1 前向算法（问题一）

给定隐马模型 $\lambda$ ，定义时刻 $t$ 为止的观测序列为 $x_1, x_2,\cdots,x_t$ ，且状态为 $i$ 的概率为前向概率，即：
$\alpha_t(i)=P(x_1,x_2,\cdots,x_t,y_t=i|\lambda)$

算法流程：

扫描二维码关注公众号，回复： 15599084 查看本文章

初值： $\alpha_1(i)=\pi_ib_i(x_1)$
递推式： $\alpha_{t+1}(i)=\big[\sum\limits_{j=1}^{N}\alpha_t(j)a_{ij}\big]b_i(x_{t+1})$
终止： $P(O|\lambda)=\sum\limits_{i=1}^{N}\alpha_n(i)$

2.3.2 后向算法（问题一）

给定隐马模型 $\lambda$ ，定义时刻 $t$ 状态为 $i$ 的条件下， $t + 1$ 到 $n$ 的部分观测序列为 $x_{t+1},x_{t+2},\cdots,x_{n}$ 的概率为后向概率，即：
$\beta_t(i)=P(x_{t+1},x_{t+2},\cdots,x_{n}|y_t=i,\lambda)$

算法流程：

初值： $\beta_n(i)=1$
递推式： $\beta_t(i)=\sum\limits_{j=1}^{N}a_{ij}b_j(x_{t+1})\beta_{t+1}(j)$
终止： $P(O|\lambda)=\sum\limits_{i=1}^{N}\pi_i*b_1(x_1)*\beta_1(i)$

本质上都是全概率公式！

2.3.3 Viterbi算法（问题二）

在这里插入图片描述
算法流程：

初值： $\delta_1(i)=\pi_ib_i(x_1),\ \psi_1(i)=0$
递推式： $\delta_{t+1}(i)=\max\limits_{1\le j\le N}\delta_t(j)a_{ji}b_{i}(x_{t+1}),\ \delta_{t+1}(i)=\argmax\limits_{1\le j\le N}\delta_t(j)a_{ji}b_{i}(x_{t+1})$
最优路径： $y_t^*=\psi_{t+1}(y^*_{t+1})$ （倒推得到最优路径）

算法解释：https://www.zhihu.com/question/20136144

该算法似乎适用于在全连通图上找最短路？

2.3.4 Baum-Welch算法（问题三）

给定 HMM 和观察序列，定义 $\xi_t(i,j)$ 为在时间 $t$ 位于状态 $i$ ，时间 $t + 1$ 位于状态 $j$ 的概率：
$\begin{align} \xi_t(i,j)&=P(y_t=i,y_{t+1}=j|X,\lambda)\\ &=\frac{P(y_t=i,y_{t+1}=j,X|\lambda)}{P(X|\lambda)}\\ &=\frac{\alpha_t(i)a_{ij}b_j(x_{t+1})\beta_{t+1}(j)}{P(X|\lambda)}\\ &=\frac{\alpha_t(i)a_{ij}b_j(x_{t+1})\beta_{t+1}(j)}{\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\alpha_t(i)a_{ij}b_j(x_{t+1})\beta_{t+1}(j)} \end{align}$
（2）→（3）利用了乘法原理，即先到达状态 $i$ ，再由状态 $i$ 转移到状态 $j$ ，然后在状态 $j$ 下取到观测值 $x_{t+1}$ ，再从状态 $j$ 得到剩下的观测值。

（3）→（4）利用了全概率公式

疑问：既然已经得到了 $\alpha,\beta$ ，为啥不直接通过 $\alpha_n$ 或 $\beta_1$ 求呢？

给定 HMM 和观察序列，在时间 $t$ 位于状态 $i$ 的概率为：
$\gamma_t(i)=\sum\limits_{j=1}^{N}\xi_t(i,j)$

在这里插入图片描述

参数的更新可由 EM 算法推导出来，不过直观上也是比较容易理解的。

机器学习——概率与统计

1 马尔可夫链

1.1 定义

1.2 马尔可夫模型

1.3 例

2 隐马模型（HMM）

2.1 模型定义

2.2 基本问题

2.3 相关算法

2.3.1 前向算法（问题一）

2.3.2 后向算法（问题一）

2.3.3 Viterbi算法（问题二）

2.3.4 Baum-Welch算法（问题三）

猜你喜欢