HMM在NLP中的应用

一、HMM基本概念的介绍

以一个例子介绍HMM，可以避开抽象的定义：
例如：N个袋子，每个袋子中有M种不同颜色的球。一实验员根据某一概率分布选择一个袋子，然后根据袋子中不同颜色球的概率分布随机取出一个球，并报告该球的颜色。对局外人：可观察的过程是不同颜色球的序列，而袋子的序列是不可观察的。每只袋子对应HMM中的一个状态；球的颜色对应于HMM中状态的输出。

状态转移概率矩阵为 $A = a_{ij}$ , $a_{ij}$ 为实验员从一只袋子(状态 $s_i$ ) 转向另一只袋子(状态 $S_j$ ) 取球的概率。
从状态 $S_j$ 观察到某一特定符号 $v_k$ 的概率分布矩阵为：

B = b_{j} (k)

$B=b_j(k)$
其中，

b_{j} (k)

$b_j(k)$ 为实验员从第

j

$j$ 个袋子中取出第

k

$k$ 种颜色的球的概率。

为了方便，一般将HMM记为： $\mu = (A,B,\pi)$

HMM的三个问题：

在给定模型 $\mu =(A, B, \pi)$ 和观察序列 $O＝O_1,O_2…O_T$ 的情况下，怎样快速计算概率 $p(O|\mu)$ ?
在给定模型 $\mu=(A, B,\pi)$ 和观察序列 $O＝O_1,O_2…O_T$ 的情况下，如何选择在一定意义下“最优”的状态序列 $Q = q_1, q_2,...,q_T$ ，使得该状态序列“最好地解释”观察序列？
给定一个观察序列 $O＝O_1,O_2,…,O_T$ ，如何根据最大似然估计来求模型的参数值？即如何调节模型的参数，使得 $p(O|\mu)$ 最大？

二、 HMM第一个问题的求解

$p(O|\mu)$ 可以由如下式计算

\begin{matrix} (6) & p (O | μ) = \sum_{Q} p (O, Q | μ) = \sum_{Q} p (Q | μ) * p (O | Q, μ) \end{matrix}

$\begin{equation} p(O|\mu) = \sum_Q p(O,Q|\mu) = \sum_Qp(Q|\mu)*p(O|Q,\mu) \end{equation}$
其中

\begin{matrix} (7) & P (Q | μ) = π_{q_{1}} * a_{q_{1} q_{2}} * a_{q_{2} q_{3}} * . . . * a_{q_{T - 1} q_{T}} \end{matrix}

$\begin{equation} P(Q|\mu) = \pi_{q_1}*a_{q_1q_2}*a_{q_2q_3}*...*a_{q_{T-1}q_T} \end{equation}$

\begin{matrix} (3) & p (O | Q, μ) = b_{q_{1}} (O_{1}) * b_{q_{2}} (O_{2}) * . . . * b_{q_{T}} (O_{T}) \end{matrix}

$\begin{equation} p(O|Q,\mu) = b_{q_1}(O_1)*b_{q_2}(O_2)*...*b_{q_T}(O_T) \end{equation}$
相当于对所有Q的可能性的求和。

遍历计算复杂度太高，利用动态规划降低复杂度。

$\alpha_t(i) = p(O_1O_2...O_t,q_t = S_i|\mu)$
如果可以高效地计算 $\alpha_t(i)$ ,就可以高效地求得 $P(O|\mu)$

事实上有如下递推公式：
$\alpha_{t+1}(j) = [\sum_{i=1}^N \alpha_t(i)a_{ij}]*b_j(O_{t+1})$

三、 HMM第二个问题的求解

问题二的本质是如何发现最优状态序列去最好地解释观察序列

一种解释是：状态序列中每个状态都单独地具有概率，对于每个时刻t，寻找 $q_t$ 使得 $\gamma_t(i) = p(q_t = S_i|O,\mu)最大$

另一种解释：在给定模型 $\mu$ 和观察序列 $O$ 的条件下求概率最大的状态序列：

\begin{matrix} (10) & \tilde{Q} = a r g m a x p (Q | O, μ) \end{matrix}

$\begin{equation} \tilde Q = arg max p(Q|O,\mu) \end{equation}$

Viterbi算法：动态规划最优状态序列
定义：Viterbi 变量是在时间 $\delta_t(i)$ 时，模型沿着某一条路径到达 $S_i$ ，输出观察序列 $O＝O_1O_2 …O_t$ 的最大概率为：

\begin{matrix} (11) & δ_{t} (i) =_{q_{1}, q_{2}, . . ., q_{t - 1}}^{m a x} p (q_{1}, q_{2}, . . ., q_{t} = S_{i}, O_{1} O_{2} . . . O_{t} | μ) \end{matrix}

$\begin{equation} \delta_t(i) = \mathop{}_{q_1,q_2,...,q_{t-1}}^{max} p(q_1,q_2,...,q_t = S_i,O_1O_2...O_t|\mu) \end{equation}$

递归算法： $\delta_{t+1}(i) = \mathop{}_j^{max}[\delta_t(j)\cdot a_{ji}]\cdot b_i(O_{t+1})$

解释一下这个式子：
模型沿着某一条路径到达 $S_{i+1}$ ,输出观察序列 $O = O_1O_2...O_{t+1}$ 的最大概率为在t时刻到达状态中选取使此式概率最大的j，因此最大概率之间构成递推关系，我们可以用Viterbi算法去求解。

四、HMM第三个问题的求解：

参数学习

给定一个观察序列 $O = O_1O_2…O_T$ ，如何根据最大似然估计来求模型的参数值？或者说如何调节模型 $\mu$ 的参数，使得 $p(O|\mu)$ 最大？即估计模型中的 $\pi_i, a_{ij}, b_j(k)$ 使得观察序列O的概率 $p(O|\mu)$ 最大。

即通过观察序列去重建模型中的参数

如果产生观察序列 $O$ 的状态 $Q = q_1q_2…q_T$ 已知(即存在大量标注的样本),可以用最大似然估计来计算 $\mu$ 的参数：

各估计如下：

{\tilde{p}}_{i} = δ (q_{1}, S_{i})

$\tilde p_i = \delta(q_1,S_i)$

{\tilde{a}}_{i j} = \frac{Q 中 从 状 态 q_{i} 转 移 到 q_{j} 的 次 数}{Q 中 所 有 从 状 态 q_{i} 转 移 到 另 一 状 态 （ 包 括 q_{j} 自 身 ） 的 总 数} = \frac{\sum_{t = 1}^{T - 1} δ (q_{t}, S_{i}) * δ (q_{t + 1}, S_{j})}{\sum_{t = 1}^{T - 1} δ (q_{t}, S_{i})}

$\tilde a_{ij} =\frac{Q中从状态q_i转移到q_j的次数}{Q中所有从状态q_i转移到另一状态（包括q_j自身）的总数} =\frac{\sum_{t=1}^{T-1} \delta(q_t,S_i)*\delta(q_{t+1},S_j)}{\sum_{t=1}^{T-1} \delta(q_t,S_i)}$

类似的：

{\tilde{b}}_{j} (k) = \frac{Q 中 从 状 态 q_{j} 输 出 符 号}{Q 到 达 q_{j} 地 总 次 数} = \frac{\sum_{t = 1}^{T - 1} δ (q_{t}, S_{j}) * δ (O_{t}, v_{k})}{\sum_{t = 1}^{T} δ (q_{t}, S_{i})}

$\tilde b_j(k) =\frac{Q中从状态q_j输出符号}{Q到达q_j地总次数} = \frac{\sum_{t=1}^{T-1} \delta(q_t,S_j)*\delta(O_{t},v_k)}{\sum_{t=1}^{T} \delta(q_t,S_i)}$

其中， $V_k$ 是模型输出符号集中地第k个符号。

HMM在自然语言处理中的应用

HMM在NLP中的应用

一、HMM基本概念的介绍

二、 HMM第一个问题的求解

三、 HMM第二个问题的求解

四、HMM第三个问题的求解：

猜你喜欢