机器学习：《统计学习方法》笔记（二）—— 条件随机场（CRF）

参考：《统计学习方法》——李航；

摘要

介绍条件随机场的基本概念、概率计算、学习方法、预测方法等内容。

正文

1.基本概念

1.1 什么是条件随机场

条件随机场的定义为：X和Y都是随机变量， $P\left(Y|X\right)$ 是给定X条件下Y的条件概率分布。若Y可以构成一个由无向图 $G=\left(V,E\right)$ 表示的马尔可夫随机场，即

$P(Y\sub_{v}|X,Y\sub_{w},w\neq v)=P(Y\sub_{v}|X,Y\sub_{w},w=v)$

对任意 $v$ 成立，则 $P(Y|X)$ 称为条件随机场。

其中 $w\neq v$ 指在无向图中除 $v$ 之外的所有点， $w=v$ 指与 $v$ 相连的所有点。

1.2 什么是概率无向图模型

联合概率分布 $P\left(Y \right )$ 由无向图 $G=\left(V,E\right)$ 来表示，图中的结点表示随机变量，边表示依赖关系。如果 $P\left(Y \right )$ 满足成对、局部、全局马尔可夫性，则该联合概率分布为无向图模型。

无向图中的最大团是指图的某个子集中任何两个结点均有边连接，并且这个子集不能再加任何一个结点使之成为更大的团。图中 ${Y_1,Y_2,Y_3 }$ 是一个最大团， ${Y_1,Y_2,Y_3,Y_4 }$ 不是最大团。

无向图的特点在于可以被因子分解，即用最大团的随机变量的函数的乘积来表示概率无向图的联合概率分布。

$P(Y)=\frac{1}{Z} \prod_{C} \psi_{C}\left(Y_C \right )$

$Z=\sum_{Y} \prod_{C}\psi_C(Y_C)$

$\psi_C(Y_C)=\exp\{-E(Y_C)\}$

C是无向图中的最大团， $Y_C$ 是C的结点对应的随机变量， $\psi_C(Y_C)$ 是C上定义的严格正函数，乘积是在无向图所有的最大团上进行的。

1.3 什么是成对、局部、全局马尔可夫性

成对马尔可夫性：

$u$ 和 $v$ 是无向图中任意两个没有边连接的结点，两个结点分别对应随机变量 $Y_u$ ， $Y_v$ ，其他结点为 $O$ ，对应的随机变量组为 $Y_O$ 。则成对马尔可夫性指，给定随机变量组 $Y_O$ 的条件下， $Y_u$ ， $Y_v$ 是条件独立的。

$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$

局部马尔可夫性：

$v\in V$ 是无向图中任意一结点， $W$ 是与 $v$ 有边连接的所有结点， $O$ 是 $v,W$ 之外的所有结点，各自表示的随机变量（组）为 $Y_v,Y_O,Y_W$ 。则局部马尔可夫性指，给定随机变量组 $Y_W$ 的条件下， $Y_v$ 与 $Y_O$ 是独立的，即

$P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)$

全局马尔可夫性：

结点集合 $A,B$ 被无向图中点集 $C$ 分隔开，其对应的随机变量组分别为 $Y_A,Y_B,Y_C$ ，则全局马尔可夫性是指给定随机变量组 $Y_C$ 条件下的随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的，即

$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$

1.4 线性条件随机场

$X=(X_1,X_2,X_3,...,X_n)$ 和 $Y = (Y_1,Y_2,...,Y_n)$ 是线性链表示的随机变量序列，在给定X的条件下，Y的条件概率分布 $P(Y|X)$ 构成条件随机场，即满足马尔可夫性

$P(Y_i|X,Y_1,...,Y_{i-1},Y_{i+1},...Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$

$i=1,2,...,n$ （在 $i=1$ 和 $i=n$ 时只考虑单边）

则称 $P(Y|X)$ 为线性条件随机场。在标注问题中，X表示输入观测序列，Y表示对应的输出标记序列或状态序列。

1.4.1 条件随机场的参数化形式为

$P(y|x)=\frac{1}{Z(x)}\exp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l} \mu _l s_l (y_i,x,i))$

$Z(x)=\sum_{y} \exp(\sum_{i,k} \lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l} \mu_l s_l(y_i,x,i))$

式中 $t_k$ 是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置，

$s_k$ 是定义在结点上的特征函数，称为状态特征，依赖于当前位置。

通常两个函数的取值为1或0；满足特征时取1，否则取0。

1.4.2 条件随机场的简化形式

$f_k(y_{i-1},y_i,x,i)=\begin{cases}t_k(y_{i-1},y_i,x,i) & k=1,2,...K_1 \\ s_l(y_i,x,i) & x= K_1+l;l=1,2,...,K_2 \end{cases}$

$f_k(y,x)=\sum_{i=1}^{n}f_k(y_{i-1},y_i,x,i), k=1,2,...,K$

$w_k=\begin{cases}\lambda_k, & k=1,2,...,K_1 \\ \mu_k & k= K_1+l;l=1,2,...,K_2 \end{cases}$

故 $P(y|x)=\frac{1}{Z(x)}\exp\sum_{k=1}^{K}w_kf_k(y,x)$ 。

1.4.3 条件随机场的矩阵形式

引入起点和终点状态标记 $y_0=start$ ， $y_{n+1}=stop$ 。对观测序列x的每一个位置 $i=1,2,...,{n+1}$ ，定义一个m阶矩阵（m表示标记 $y_i$ 取值的个数）

$M_i(x)=[M_i(y_{i-1},y_i|x)]$

$M_i(y_{i-1},y_i|x)=\exp(W_i(y_{i-1},y_i|x))$

$W_i(y_{i-1},y_i|x)=\sum_{i=1}^{n+1}w_k f_k(y_{i-1},y_i,x,i)$

这样，给定观测序列x，标记序列y的非规范化概率可以通过n+1个矩阵的乘积 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 表示，于是可得，

$P_w(y|x)=\frac{1}{Z(x)}\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$

$Z_w(x)=(M_1(x)M_2(x)...M_{n+1}(x))_{start,stop}$

这里，笔者对m阶矩阵的理解如下,

假设，状态序列y，观测序列x， $i=1,2,3$ ， $n=3$ ，标记 $y_i\in {1,2}$ $y_0=start=1$ ， $y_4=stop=1$ ，各个位置随机矩阵为

$M_1(x)=\begin{bmatrix}a_{01} &a_{02} \\0 &0 \end{bmatrix}$ $M_2(x)=\begin{bmatrix} b_{11} &b_{12} \\b_{21} &b_{22} \end{bmatrix}$ $M_3(x)=\begin{bmatrix} c_{11} &c_{12} \\c_{21} & c_{22} \end{bmatrix}$ $M_4(x)=\begin{bmatrix}1 & 0 \\ 1 & 0 \end{bmatrix}$

$M_1(x)$ 中 $a_{01}$ 表示在位置一时，从0到1的概率，从1到0的概率为0；

$M_2(x)$ 中 $b_{11}$ 表示在位置二时，从1到1的概率， $b_{21}$ 表示从2到1的概率；

$M_4(x)$ 中由于在最后stop=1，故从1到1概率为1，从2到1概率为1，从1到2概率为0，从2到2概率也为0 ；

注：是非规范化概率。

2.概率计算

2.1前向后向算法

对每个指标 $i=0,1,...,n+1$ ，定义前向向量 $\alpha_i(x)$

$\alpha_0(y|x)=\begin{cases} 1,&y=start \\ 0, &y\neq start \end{cases}$

$\alpha_i^{T}(y_i|x)=\alpha_{i-1}^{T}(y_{i-1}|x)M_i(y_{i-1},y_i|x), i=1,2,...,n+1$

即 $\alpha_i^{T}(x)=\alpha_{i-1}^{T}(x)M_i(x)$

$\alpha_i(y_i|x)$ 表示在位置i的标记是 $y_i$ 并且到位置i的前部分标记序列的非规范化概率。

对每个指标 $i=0,1,...,n+1$ ，定义后向向量 $\beta_i(x)$

$\beta_{n+1}(y_{n+1}|x)=\begin{cases} 1, &y_{n+1}=stop \\ 0, &y_{n+1}\neq stop \end{cases}$

$\beta_i(y_i|x)=M_i(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)$

即 $\beta_i(x)=M_{i+1}\beta_{i+1}(x)$

$\beta_i(y_i|x)$ 表示在位置i的标记为 $y_i$ 并且从位置i+1到n的后部分标记序列的非规范化概率。

由前向-后向向量定义可得

$Z(x)=\alpha_n^T(x)\cdot 1=1^T\cdot \beta_1(x)$

2.2概率计算

给定观测序列X，标记序列在i位置的标记是 $y_i$ 的概率为

$P(Y_i=y_i|x)=\frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)}$

给定观测序列X，标记序列在i-1位置是 $y_{i-1}$ ，且在i位置的标记为 $y_i$ 的概率为

$P(Y_{i-1}=y_{i-1},Y_i=y_i|x)=\frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$

$Z(x)=\alpha_n^T(x)\cdot 1$

2.3期望值的计算

特征函数 $f_k$ 关于条件分布 $P(Y|X)$ 的数学期望是

$\begin{align*}E_{P(Y|X)}\left[f_k \right ] &= \sum_{y} P(y|x) \sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)\\ &= \sum_{i=1}^{n+1}\sum_{y_{i-1},y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}^T(y_{i-1}|x)M_{i}(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} \\ & k=1,2,...,K \end{align*}$

假设经验分布为 $\tilde{P}(X)$ ，特征函数 $f_k$ 关于联合分布 $P(Y,X)$ 的数学期望是 $\begin{align*}E_{P(X,Y)}[f_k] &=\sum_{x,y}P(x,y)\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)\\ &=\sum_{x}\tilde{P}(x)\sum_{y}P(y|x)\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)\\ &=\sum_{x}\tilde{P}(x)\sum_{i=1}^{n+1}\sum_{y_{i+1},y_i}f_k(y_{i-1},y_i,x,i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} \end{align*}$

其中

$Z(x)=\alpha_n^T(x)\cdot 1$

3. 学习算法

3.1改进的迭代尺度法

条件随机场要学习的是特征函数 $f_k$ 的权重 $w_k$ 。给定训练数据集，可以得到经验分布 $\tilde{P}(X,Y)$ 。通过极大化训练数据的对数似然函数来求解模型参数。

似然函数是

$L(w)=L_{\tilde{P}}(P_w)=\log \prod _{x,y}P_w(y|x)^{\tilde{P}(x,y)}=\sum_{x,y} \tilde{P}(x,y)\log P_w(y|x)$

$\begin{align*} L(w)&=\sum_{x,y}\tilde{P}(x,y)\log P_x(y|x)\\ &=\sum_{x,y}\left[ \tilde{P}(x,y)\sum_{k=1}^{K}w_k f_k(y,x) - \tilde{P}(x,y)\log Z_w(x) \right ]\\ &=\sum_{j=1}^{N}\sum_{k=1}^{K}w_k f_k(y_j, x_j) - \sum_{j=1}^{N}\log Z_w(x_j) \end{align*}$

改进的迭代尺度法通过迭代的方法不断优化对数似然函数改变量的下界，以达到极大化对数似然函数的目的。

算法输入：特征函数 $t_1,t_2,...,t_{k_1}$ ， $s_1,s_2,...,s_{k_2}$ ；经验分布 $\tilde{P}(X,Y)$ 。

算法输出：参数估计值 $\hat{w}$ ；模型 $P_{\hat{w}}$ 。

（1）对所有的k，取初值为 $w_k=0$ ；

（2）当 $k=1,2,...,K_1$ 时，令 $\delta_k$ 是方程

$\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp (\delta_k T(x,y))=E_{\tilde{P}}[t_k]$

的解；

更新参数值 $w_k=w_k+\delta_k$ 。

当 $k=K_1+l,l=1,2,...,K_2$ 时，令 $\delta_k$ 是方程

$\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^{n+1}s_l(y_i,x,i)\exp (\delta_{K_1+l} T(x,y))=E_{\tilde{P}}[s_l]$

的解；

更新参数值 $w_k=w_k+\delta_k$ 。

$T(y,x)$ 是在数据(x,y)中出现所有特征数的总和

$T(x,y)=\sum_{k}f_k(y,x)=\sum_{k=1}^{K}\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)$

（3）如果不是所有的 $w_k$ 都收敛，则重复（2）。

由于 $T(y,x)$ 是在数据(x,y)中出现所有特征数的总和，对不同的数据(x,y)取值可能不同。为处理这个问题，定义松弛特征

$s(x,y)=S-\sum_{i=1}^{n+1}\sum_{k=1}^{K}f_k(y_{i-1},y_i,x,i)$

S是一个常数，选择中够大的常数S舍不得训练数据集的所有数据(x,y)， $s(x,y) \geq 0$ 成立，这时特征总数可取S。

更新方程也需要改一下：

对于转移特征

$\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp (\delta_k S)=E_{\tilde{P}}[t_k]$

$\delta_k=\frac{1}{S}\log \frac{E_{\tilde{P}}[t_k]}{E_P[t_k]}$

$E_p (t_k)=\sum_{x} \tilde{P}(x)\sum_{i=1}^{n+1}\sum_{y_{i-1},y_i}t_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}^{T}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$

对于状态特征

$\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^{n}s_l(y_i,x,i)\exp (\delta_k S)=E_{\tilde{P}}[s_l]$

$\delta_k=\frac{1}{S}\log \frac{E_{\tilde{P}}[s_l]}{E_P[s_l]}$

$E_p(s_l)=\sum_{x}\tilde{P}(x)\sum_{i=1}^{n}\sum_{y_i}s_l(y_i,x,i)\frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)}$

上述方法称为算法S。常数S要取足够大，每步迭代的增量向量 $\delta_k$ 会变大，算法收敛会变慢。

算法T试图解决这个问题，其对每个观测序列x计算其特征总数最大值 $T(x)$ ，即 $T(x)=\max_{y}T(x,y)$ 。

利用前向后向递推公式计算 $T(x)=t$ 。

$\begin{align*} E_{\tilde{P}}[t_k]&=\sum_{x,y} \tilde{P}(x)P(y|x)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp (\delta_k T(x))\\ &=\sum_{x}\tilde{P}(x)\sum_{y}P(y|x)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp (\delta_k T(x))\\ &=\sum_{x}\tilde{P}(x)a_{k,t}\exp(\delta_k\cdot t)\\ &=\sum_{t=0}^{T_{max}}a_{k,t}\beta_k^t \end{align*}$

$a_{k,t}$ 是特征 $t_k$ 的期望值， $\delta_k=\log\beta_k$ 。 $\beta_k$ 是上式唯一实根，可用牛顿法求得，从而求得相关的 $\delta_k$ 。

$\begin{align*} E_{\tilde{P}}[s_l] &=\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^{n}s_l(y_i,x,i)\exp(\delta_{K_1+l}T(x))\\ &=\sum_{x}\tilde{P}(x)\sum_{y}P(y|x)\sum_{i=1}^{n}s_l(y_i,x,i)\exp(\delta_{K_1+l}T(x))\\ &=\sum_{x}\tilde{P}(x)b_{l,t}\exp(\delta_{k} \cdot t)\\\ &=\sum_{t=0}^{T_{max}}b_{l,t}\gamma_l^t \end{align*}$

$b_{l,t}$ 是特征 $s_l$ 的期望值， $\delta_l=\log \gamma_l$ ， $\gamma_l$ 是上式唯一实根，用牛顿法求得。

条件随机场的学习算法也可以用拟牛顿法，具体如何用，本文不再详述，以后接触到拟牛顿法时，再详细讲解。

4.预测算法

同HMM一样，CRF也可以用维特比算法来进行预测。

CRF的预测问题是给定模型P(y|x)和输入序列x，求条件概率最大的输出序列，即对观测序列进行标注。

$\begin{align*} y^* &=\arg \max_{y}P_w(y|x)\\ &=\arg \max_y \frac{\exp (w \cdot F(x,y))}{Z_w(x)}\\ &=\arg \max_y \exp (w \cdot F(x,y))\\ &= \arg \max_y (w \cdot F(x,y)) \end{align*}$