机器学习：马尔可夫模型

后续遇到合适的案例会再补充

1 马尔可夫模型

马尔可夫模型(Markov Model, MM)是一种统计模型，广泛应用在自然语言处理等领域中。

1.1 数学定义

考虑一组随机变量序列 $X=\{X_{0},X_{1},\dots,X_{t},\dots\}$ ,其中 $X_{t}$ 表示时刻 $t$ 的随机变量，并且每个随机变量 $X_{t}$ 的取值集合相同，称为状态空间 $S$ 。 $S$ 可以是离散的，也可以是连续的。
假设在时刻 $0$ 的随机变量 $X_{0}$ 遵循概率分布 $P(X_{0})=\pi(0)$ , 即为初始状态分布。若某个时刻 $t\ge1$ 的随机变量 $X_{t}$ 与前一个时刻的随机变量 $X_{t-1}$ 之间有条件分布 $F(X_{t}|X_{t-1})$ ，并且 $X_{t}$ 只依赖于 $X_{t-1}$ ，而不依赖于过去的随机变量 $(X_{0},X_{1},\dots,X_{t-2})$ ，则 $X$ 具有马尔可夫性质，称为马尔科夫链。即 $P(X_{t}|X_{0},X_{1},\dots,X_{t-1})=P(X_{t}|X_{t-1}),t=1,2,\dots$ 其中， $P(X_{t}|X_{t-1})$ 称为马尔科夫链的转移概率分布。
另外，若条件转移概率分布与时间 $t$ 无关，则称为时间齐次的马尔可夫链。即 $P(X_{t+s}|X_{t+s-1})=P(X_{t}|X_{t+1})$ 若某个时刻 $t\ge1$ 的随机变量 $X_{t}$ 与前 $n$ 个状态相关，则称为 $n$ 阶马尔可夫链。即 $P(X_{t}|X_{0}\dots X_{t-1})=P(X_{t}|X_{t-n}X_{t-n+1}\dots X_{t-1})$

除了马尔可夫性外，马尔可夫链还可能具有不可约性、常返性、周期性和遍历性。

1.2 两种马尔可夫链

1.2.1 离散马尔可夫链

如果上述随机变量 $X_{t}(t=0,1,2,\dots,)$ 是定义在离散空间 $S$ 中，则称为离散马尔可夫链，其转移概率分布可以用矩阵表示。若 $S=\{1,2,\dots,n\}$ 则转移概率分布矩阵为： $P=\begin{bmatrix} p_{11} & p_{12} & \dots & p_{1n} \\ p_{21} & p_{22} & \dots & p_{2n} \\ \vdots & \vdots & \cdots & \vdots \\ p_{n1} & p_{n2} & \dots & p_{nn} \end{bmatrix} \tag{1}$ 其中 $p_{ij}=P(X_{t}=i|X_{t-1}=j)$ 为马尔可夫链在 $t - 1$ 时刻从状态 $j$ 转移到时刻 $t$ 的状态 $i$ 的概率。 $p_{ij} \ge 0$ 且 $\sum_{i}p_{ij}=1$ 。
马尔可夫链在任意时刻 $t$ 的状态分布，可以由在时刻 $t - 1$ 的状态分布及转移概率分布决定，即 $\pi(t)=P\pi(t-1)=P\cdot P\pi(t-2)$ 。依次类推 $\pi(t)=P^{t}\pi(0)$

1.2.2 连续马尔可夫链

如果状态空间 $S$ 定义在连续空间，则序列 $X$ 称为连续马尔可夫链。则转移概率分布由概率转移核函数来表示。对任意的 $x\in S, A\in S)$ , 转移概率 $P(x,A)=\int_{A} p(x,y)dy$

参考资料

《统计学习方法》