【自然语言处理】条件随机场【Ⅳ】条件随机场学习问题

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

部分推导和定义相关的佐证资料比较少，供参考。讨论的过程中我会加入自己的理解，难免存在错误，欢迎大家讨论。

在阅读本篇之前建议先学习：
隐马尔可夫模型系列
 最大熵马尔可夫模型

由于字数限制，分成五篇博客。
【自然语言处理】条件随机场【Ⅰ】马尔可夫随机场
 【自然语言处理】条件随机场【Ⅱ】条件随机场概述
 【自然语言处理】条件随机场【Ⅲ】条件随机场估计问题
 【自然语言处理】条件随机场【Ⅳ】条件随机场学习问题
 【自然语言处理】条件随机场【Ⅴ】条件随机场解码问题

3.7. 学习问题

已知训练数据集，由此可知经验概率分布 $\tilde P(X,Y)$ 。可以通过极大化训练数据的对数似然函数来求模型参数。训练数据的对数似然函数为
$L_{\tilde P}(P_w) = \log \prod_{x,y} P_w(y\mid x)^{P_w(x,y)} = \sum_{x,y} \tilde P(x,y) \log P_w(y\mid x)$
当 $P_w$ 是一个由式 $(6)$ 和式 $(7)$ 给出的条件随机场模型时，对数似然函数为
$\begin{align} L(w) &= \sum_{x,y} \tilde P(x,y) \log P_w(y\mid x)\notag \\ &= \sum_{x,y} \left[ \tilde P(x,y) \sum_{k=1}^K w_kf_k(y,x) - \tilde P(x,y)\log Z_w(x) \right] \notag \\ &= \sum_{x,y} \tilde P(x,y) \sum_{k=1}^K w_kf_k(y,x) -\sum_{x}\tilde P(x)\log Z_w(x)\notag \\ &= \sum_{x,y} \tilde P(x,y) \sum_{k=1}^K w_kf_k(y,x) -\sum_{x}\tilde P(x)\log \sum_y \exp \left( \sum_{k=1}^K w_kf_k(y, x) \right) \tag{16} \end{align}$
另外， $L (w)$ 还可以等价写成全部样本条件概率乘积的对数形式
$\begin{align} L(w) &= \log \prod_{d=1}^D P_w(y^{(d)}\mid x^{(d)} ) \notag\\ &= \sum_{d=1}^D \log P_w(y^{(d)}\mid x^{(d)}) \notag \\ &= \sum_{d=1}^D \log \frac{\exp \left(\sum\limits_{k=1}^K w_k f_k(y^{(d)}, x^{(d)})\right)}{Z_w(x^{(d)})} \notag \\ &= \sum_{a=1}^D \sum_{k=1}^K w_kf_k(y^{(d)},x^{(d)}) - \sum_{d=1}^D \log Z_w(x^{(d)})\tag{17} \end{align}$
在最大熵马尔可夫模型中我们讨论过 $\log \prod\limits_{x,y} P_w(y\mid x)^{P_w(x,y)}=\log \prod\limits_{d=1}^D P_w(y^{(d)}\mid x^{(d)})$ 。因此，训练式 $(16)$ 和式 $(17)$ 是等价的。

3.7.1. 梯度下降法

考虑式 $(16)$ ，梯度下降法需要极小化 $f(w) = -L(P_w)$ ，
$\begin{align} f(w) &= -L(P_w)\notag \\ &= \sum_{x}\tilde P(x)\log \sum_y \exp \left( \sum_{k=1}^K w_kf_k(y, x) \right) - \sum_{x,y} \tilde P(x,y) \sum_{k=1}^K w_kf_k(y,x) \notag \end{align}$

$f (w)$ 关于 $w_k$ 的偏导为
$\begin{align} \frac{\partial f(w)}{\partial w_k} &= \sum_{x} \tilde P(x) \frac{\partial \log \sum\limits_y \exp \left( \sum\limits_{k=1}^K w_kf_k(y, x) \right)}{\partial w_k} - \sum_{x,y}\tilde P(x,y)f_k(y, x) \notag\\ &= \sum_x \tilde P(x) \frac{1}{\log \sum\limits_y \exp \left( \sum\limits_{k=1}^K w_kf_k(y, x) \right)} \frac{\partial \sum\limits_y \exp \left( \sum\limits_{k=1}^K w_kf_k(y, x) \right)}{\partial w_k} - \sum_{x,y}\tilde P(x,y)f_k(y, x) \notag\\ &= \sum_x \tilde P(x) \frac{1}{Z_w(x)} \sum_y \exp \left( \sum\limits_{k=1}^K w_kf_k(y, x) \right) f_k(y, x) - \sum_{x,y}\tilde P(x,y)f_k(y, x) \notag\\ &= \sum_x \tilde P(x) \sum_y \frac{\exp\left( \sum\limits_{k=1}^K w_kf_k(y, x) \right) }{Z_w(x)}f_k(y, x) - \sum_{x,y}\tilde P(x,y)f_k(y, x) \notag\\ &= \sum_{x,y} \tilde P(x) \frac{\exp\left( \sum\limits_{k=1}^K w_kf_k(y, x) \right) }{Z_w(x)}f_k(y, x) - \sum_{x,y}\tilde P(x,y)f_k(y, x) \notag\\ &= \sum_{x,y} \tilde P(x) P_w(y\mid x)f_k(y, x) - \sum_{x,y}\tilde P(x,y)f_k(y, x) \notag\\ \end{align}$
利用偏导数，采用梯度下降法迭代求解最优 $w$ 。

3.7.2. 改进的迭代尺度法

改进的迭代尺度法通过迭代的方法不断优化对数似然函数改变量的下界，达到极大化对数似然函数的目的。假设模型的当前参数向量为 $w=(w_1, w_2,… ,w_K)^T$ ，向量的增量为 $\delta = (\delta_1,\delta_2,\dots, \delta_K)^T$ ，更新参数向量为 $w+\delta = (w_1+\delta_1,w_2+\delta_2, \dots, w_K+\delta_K)^T$ 。

转移特征 $t_i$ 的迭代更新方程为
$\begin{align} E_{\tilde P} [t_i] &\overset{\rm def}{=} \sum_{x,y} \tilde P(x,y)\sum_{t=1}^{T+1} t_i (y_{t-1},y_t, x, t)\notag\\ &= \sum_{x,y}\tilde P(x) P(y\mid x) \sum_{t=1}^{T+1} t_i (y_{t-1},y_t, x, t) \exp(\delta_i f^\#(x,y)),\space\space\space\space i=1,2,\dots, K_1 \tag{18} \end{align}$
状态特征 $s_j$ 的迭代更新方程为
$\begin{align} E_{\tilde P} [s_j] &\overset{\rm def}{=} \sum_{x,y} \tilde P(x,y)\sum_{t=1}^{T+1} s_j (y_t, x, t)\notag\\ &= \sum_{x,y}\tilde P(x) P(y\mid x) \sum_{t=1}^{T} s_j (y_t, x, t) \exp(\delta_{K_1+j} f^\#(x,y)),\space\space\space\space j=1,2,\dots, K_2 \tag{19} \end{align}$
其中 $f^\#(x,y)$ 是在数据 $(x, y)$ 中出现所有特征数的总和
$f^\#(x,y) = \sum_k f_k(y,x) = \sum_{k=1}^K \sum_{t=1}^{T+1} f_k(y_{t-1},y_t, x, t)$
类似于最大熵模型中的 IIS 算法，往往不能保证每个样本的 $f^\#(x,y)$ 都相等。为了处理这个问题，定义松弛特征
$\sum_{t = 1}^{T+1} \sum_{k=1}^K f_k(y_{t-1},y_t, x, t)$
其中 $S$ 是一个常数。选择足够大的常数 $S$ 使得对训练数据集的所有数据 $(x, y)$ ， $s(x,y)\ge 0$ 成立。这时特征总数可取 $S$ 。

式 $(18)$ 重新写为
$\sum_{x,y}\tilde P(x) P(y\mid x) \sum_{t=1}^{T+1} t_i (y_{t-1},y_t, x, t) \exp(\delta_i S) =E_{\tilde P} [t_i]$
解方程得
$\delta_i = \frac{1}{S} \log \frac{E_{\tilde P}[t_i]}{E_P[t_i]}$
其中 $E_{\tilde P}[t_i]$ 可以根据训练集直接计算出来， $E_{P}(t_i)$ 可以表示为
$E_P(t_i) = \sum\limits_{x}\tilde{P}(x)\sum\limits_{t=1}^{T+1} \sum\limits_{j,k}t_i(y_{t-1}=q_j,y_t=q_k,x, t) \frac{\alpha_{t-1}(j)M_t(y_{t-1}=q_j,y_t=q_k\mid x)\beta_t(k)}{ Z(x)}$
对于式 $(19)$ 可以类似地得到
$\sum_{x,y}\tilde P(x) P(y\mid x) \sum_{t=1}^{T} s_j (y_t, x, t) \exp(\delta_{K_1+j} S) =E_{\tilde P} [s_j]$
解方程得
$\delta_{K_1+j} = \frac{1}{S}\log \frac{E_{\tilde P}[s_j]}{E_P[s_j]}$
其中 $E_P(s_j)$ 可以表示为
$E_P(s_j) = \sum_x \tilde P(x) \sum_{t=1}^T \sum_{i} s_j(y_t = q_i, x, t)\frac{\alpha_t(i)\beta_t(i)}{Z(x)}$
以上配合迭代过程称为算法 $S$ 。在算法 $S$ 中需要使常数 $S$ 取足够大，这样一来，每步迭代的增量向量过小，算法收敛会变慢。算法 $T$ 试图解决这个问题。算法 $T$ 对每个观测序列 $x$ 计算其特征总数最大值 $T (x)$ ：
$T(x) = \max_y T(x,y)$
利用前向后向递推公式，可以计算出 $T (x)$ ，记 $T(x)=\mathcal T$ 。关于转移特征参数的更新方程可以写成：
$\begin{align} E_{\tilde P}[t_i] &= \sum_{x,y}\tilde P(x) P(y\mid x)\sum_{t=1}^{T+1}t_i(y_{t-1},y_t,x,t) \exp(\delta_i T(x))\notag \\ &= \sum_x \tilde P(x) \sum_y P(y\mid x) \sum_{t=1}^{T+1} t_i(y_{t-1},y_t, x, t)\exp(\delta_i T(x)) \notag\\ &= \sum_x \tilde P(x)a_{i,\mathcal T} \exp(\delta_i \mathcal T) \notag \\ &= \sum_{t=0}^{T_{\rm max}} a_{i,\mathcal T} u_i^\mathcal T\tag{20} \end{align}$
其中， $a_{i,\mathcal T}$ 是特征 $t_i$ 的期望 $\sum\limits_y P(y\mid x) \sum\limits_{t=1}^{T+1} t_i(y_{t-1},y_t, x, t)$ ， $\delta_i$ 记为 $log u_i$ 。 $u_i$ 是多项式方程 $(20)$ 唯一的实根，可以通过牛顿法等方法求得多项式的根，从而求得 $\delta_i$ 。

同样，关于状态特征的参数更新方程可以写成
$\begin{align} E_{\tilde P}[s_j] &= \sum_{x,y}\tilde P(x) P(y\mid x)\sum_{t=1}^{T+1}s_j(y_{t-1},y_t,x,t) \exp(\delta_{K_1+j} T(x))\notag \\ &= \sum_x \tilde P(x) \sum_y P(y\mid x) \sum_{t=1}^{T+1} s_j(y_{t-1},y_t, x, t)\exp(\delta_{K_1+j} T(x)) \notag\\ &= \sum_x \tilde P(x)b_{j,\mathcal T} \exp(\delta_{K_1+j} \mathcal T) \notag \\ &= \sum_{t=0}^{T_{\rm max}} b_{j,\mathcal T} v_j^\mathcal T\tag{21} \end{align}$
其中， $b_{j,\mathcal T}$ 是特征 $s_j$ 的期望 $\sum\limits_y P(y\mid x) \sum\limits_{t=1}^{T+1} s_j(y_{t-1},y_t, x, t)$ ， $\delta_{K_1+j}$ 记为 $log v_j$ 。 $v_j$ 是多项式方程 $(21)$ 唯一的实根，可以通过牛顿法等方法求得多项式的根，从而求得 $\delta_{K_1+j}$ 。

算法 $S$ 和算法 $T$ 都是提供了求解增量向量 $\delta$ 的方法，两种算法的具体迭代过程是一致的。简单描述为，对 $w_k$ ， $k=1,2,\dots, K$ 设置初始值 $0$ ；利用算法 $S$ 或算法 $T$ 求解出 $\delta_k$ ，更新 $w_k$ 为 $w_k+\delta_k$ ，直至所有 $w_k$ 都收敛。