笔记(总结)-从马尔可夫模型到条件随机场

本篇针对概率图模型做一个总结。顺序依次为：
马尔可夫模型（Markov Model，下称MM） $\Longrightarrow$
隐马尔可夫模型（Hidden Markov Model，下称HMM） $\Longrightarrow$
最大熵模型（Maximum Entropy Model，下称MEM） $\Longrightarrow$
最大熵隐马模型（Maximum Entropy Markov Model，下称MEMM） $\Longrightarrow$
条件随机场（Conditional Random Field，下称CRF）

首先讲述下生成式模型与判别式模型，这对于理解后面几个模型的建模逻辑是有帮助的。模型介绍中可能会有前后的穿插，但尽量按照箭头指向关系来叙述。

生成式模型与判别式模型

所谓“模型”，概率性意义上可以解释为：模拟事物在一段时间里的变化规律。而“建模”可以理解为：找出这种变化规律。找规律的方法有两种：生成式方法和判别式方法，由此产生两种类型的模型。

生成式模型（Generative Model）：由给定数据学习联合概率分布 $P(X,Y)$ ，当有了联合概率分布后，得到条件概率分布 $P(Y|X)$ 作为预测模型。朴素贝叶斯（Naive Bayes）和HMM都属于这一类。

判别式模型（Discriminative Model）：由给定数据直接学习 $P(Y|X)$ ，作为预测模型，关注的是对于给定输入 $X$ ，应该给出何种预测 $Y$ 。支持向量机（Support Vector Machine）、MEM、MEMM、CRF都属于这一类。

生成式模型从样本的分布规律（联合概率）出发，想通过尽量多的样本来找出样本本身的特性。而判别式模型关注不同类型样本的分类边界（其实就是某种划分规则），根据边界将样本划分开，样本落在哪边就打上哪边所属的标签。

显然，从概率关系上来说，由生成式模型可以得到判别式模型，反之则不行。

P (Y | X) = \frac{P (X, Y)}{P (X)}

$P(Y|X)=\frac{P(X,Y)}{P(X)}$

马尔可夫模型（Markov Model，MM）

先介绍两个概念，便于之后的理解。

随机过程（Stochastic Process）：是一组随机变量的集合。在我们接下来要描述的场景里，每一个时间点，均有一个随机变量相对应，这些随机变量的集合就是随机过程。

马尔可夫链：一个系统中包含有一些状态，随着时间推移，系统从一个状态转换到另一个状态。如果系统在 $t$ 时刻的状态 $q_t$ 只与其在 $t-1$ 时刻的状态 $q_{t-1}$ 相关，则系统构成离散的一阶马尔可夫链。

下面我们给出MM的定义。如果只考虑独立于时间 $t$ 的随机过程：

P (q_{t} = S_{j} | q_{t - 1} = S_{i}) = a_{i j}

$P(q_t=S_j|q_{t-1}=S_i)=a_{ij}$

其中， $a_{ij} \geq 0$ ，且 $\sum_{j}a_{ij}=1$ 。则该随机过程称为MM。

首先，MM是一个随机过程，表现在每个时刻 $t$ 的状态 $q_t$ 是一个随机变量（可能取不同的状态值），所有时刻的随机变量的集合即为随机过程。而独立于时间 $t$ 则说的是，系统在不同状态间转换的概率在不同时间点是相同的，即：

P (q_{i} = S_{m} | q_{i - 1} = S_{n}) = P (q_{j} = S_{m} | q_{j - 1} = S_{n}) = a_{n m}, f o r a n y i, j

$P(q_i=S_m|q_{i-1}=S_n)=P(q_j=S_m|q_{j-1}=S_n)=a_{nm}, \ \ \ for \ any \ i,j$

如此一来，我们就可以建模一个系统的状态序列，即：

P (q_{0}, q_{1}, . . ., q_{T}) = P (q_{0}) \prod_{t = 1}^{T} P (q_{t} | q_{t - 1})

$P(q_0,q_1,...,q_T)=P(q_0)\prod_{t=1}^TP(q_t|q_{t-1})$

其中， $P(q_0)$ 指的是系统初始为不同状态的概率。

现在，我们以三元组形式定义MM： $M=(S,A,\pi)$ ，其中

$S$ ：模型中状态的有限集合
$A$ ：与时间无关的状态转移矩阵
$\pi$ ：初始状态取值的概率分布

此时，我们可以定量描述一个随机事件的发生概率，比如天气变化：

隐马尔可夫模型（Hidden Markov Model，HMM）

HMM也是一个关于时序的模型，是一个双重随机过程，由一个隐藏的马尔可夫链随机生成不可观测的状态序列，再由各个状态随机生成可以观测的输出序列。以五元组形式定义HMM： $M=(S,O,A,B,\pi)，其中$

$S$ ：模型中不可观测状态的有限集合
$O$ ：模型中状态产生的可观测输出的集合
$A$ ：与时间无关的状态转移矩阵
$B$ ：给定状态下，观测值的概率分布矩阵
$\pi$ ：初始状态取值的概率分布

HMM的意义在于，我们可以通过可观测的序列来对不可观测的隐状态进行推测。现实中很多过程都可以归为HMM的建模场景，比如天气预测。我们想知道前一天的夜里有没有下雨，但是不方便在夜里进行观察。我们可以观察到的是第二天草地是不是湿的，通过可观测的草地干湿状态的变化来获知前一天夜里不可观测的隐状态天气变化，在此场景下，我们细化五元组定义：

$S$ ：不可观测状态的集合，假设 $|S|=N$ ，指天气情况。
$O$ ：可观测输出的集合，假设 $|O|=M$ ，指草地干湿程度。
$A$ ：状态转移矩阵。 $A=[a_{ij}]$ ，即从隐藏状态 $S_i$ 转换到 $S_j$ 的概率，其中：
${\begin{cases} a_{i j} = P (q_{t} = S_{j} | q_{t - 1} = S_{i}), 1 \leq i, j \leq N \\ a_{i j} \geq 0 \\ \sum_{j = 1}^{N} a_{i j} = 1 \end{cases}$ $\begin{cases} a_{ij}=P(q_t=S_j|q_{t-1}=S_i), \ \ \ \ \ 1\leq i,j\leq N \\ a_{ij}\geq 0 \\ \sum_{j=1}^N a_{ij}=1 \end{cases}$
$B$ ：观测值的概率分布矩阵。 $B=[b_j(k)]$ ，即从隐藏状态 $S_j$ 产生可观测输出 $v_k$ 的概率，其中：
${\begin{cases} b_{j} (k) = P (o_{t} = v_{k} | q_{t} = S_{j}), 1 \leq j \leq N, 1 \leq k \leq M, \forall t \\ a_{j} (k) \geq 0 \\ \sum_{k = 1}^{M} b_{j} (k) = 1 \end{cases}$ $\begin{cases} b_j(k)=P(o_t=v_k|q_t=S_j), \ \ \ \ \ 1\leq j\leq N, \ 1\leq k\leq M, \ \forall t \\ a_j(k)\geq 0 \\ \sum_{k=1}^M b_j(k)=1 \end{cases}$
$\pi$ ：初始状态取值的概率分布。 $\pi=[\pi_i]$ ，表示初始状态取 $S_i$ 的概率，其中：
${\begin{cases} π_{i} = P (q_{1} = S_{i}), 1 \leq j \leq N \\ π_{i} \geq 0 \\ \sum_{i = 1}^{N} π_{i} = 1 \end{cases}$ $\begin{cases} \pi_i=P(q_1=S_i), \ \ \ \ \ 1\leq j\leq N \\ \pi_i\geq 0 \\ \sum_{i=1}^N \pi_i=1 \end{cases}$

HMM包含3个假设：

马尔可夫假设：隐状态构成一阶马尔可夫链，即 $q_t$ 只与 $q_{t-1}$ 相关。
不动性假设：状态转移与时间无关，即 $P(q_i=S_m|q_{i-1}=S_n)=P(q_j=S_m|q_{j-1}=S_n)$ 。
输出独立性假设：即 $P(o_1,...,o_T|q_1,...,q_T)=\prod_{t=1}^Tp(o_t|q_t)$ 。

前两条是MM就有的性质。着重关注第三条，这是HMM建模上就自带的弊端，待会讨论。

HMM有三个基本问题，在此不涉及具体的计算与举例，只是概括性地进行描述，相关内容网上已经很多。

评估问题：给定模型，求某个观测序列的概率 $P(O|\lambda)$ ， $\lambda$ 为模型参数。只有观测序列是确定的，那么枚举所有状态序列产生观测序列的概率就好了，类似于全概率展开公式。即： $P(O|\lambda)=\sum_QP(O,Q|\lambda)=\sum_QP(Q|\lambda)P(O|Q,\lambda)$
但是由于状态太多的话，枚举量太大，于是基于动态规划（dynamic programming）的前向（后向）算法，记录下状态路径的中间结果，将时间复杂度由 $O(N^T)$ 降低为 $O(N^2T)$ 。
预测（解码）问题：给定模型和观测序列，求最可能产生该观测序列的隐状态序列 $P(Q|O,\lambda)$ 。即：
$Q=\arg \max_QP(O,Q|\lambda)=\arg \max_QP(Q|\lambda)P(O|Q,\lambda)$
和评估问题相同的是状态序列过多的问题，同样的解决思路，使用Viterbi算法，将时间复杂度由 $O(N^T)$ 降低为 $O(N^2T)$ 。
学习问题：参数主要是状态转移概率与可观测输出的概率分布。观测序列一般是已知的。当产生观测序列的状态序列也已知时，使用极大似然估计；未知时，使用EM算法。

由上述建模过程可以看到，HMM的核心计算都围绕 $P(O,Q|\lambda)=P(Q|\lambda)P(O|Q,\lambda)$ 展开，基于联合概率建模，计算目标是为了找出状态序列、输出序列的规律（概率值）。且在计算中没有明确的待预测值，都是在算概率分布。很显然，HMM是生成式模型。

HMM的弊端：输出独立性假设。HMM假设了可观测输出是相互独立的，但在现实生活中往往并非如此。因此，对于输出之间产生关联的场景，HMM效果就会变差。

最大熵模型

经典应用场景：序列标注

To be continue……