【自然语言处理】条件随机场【Ⅲ】条件随机场估计问题

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

部分推导和定义相关的佐证资料比较少，供参考。讨论的过程中我会加入自己的理解，难免存在错误，欢迎大家讨论。

在阅读本篇之前建议先学习：
隐马尔可夫模型系列
 最大熵马尔可夫模型

由于字数限制，分成五篇博客。
【自然语言处理】条件随机场【Ⅰ】马尔可夫随机场
 【自然语言处理】条件随机场【Ⅱ】条件随机场概述
 【自然语言处理】条件随机场【Ⅲ】条件随机场估计问题
 【自然语言处理】条件随机场【Ⅳ】条件随机场学习问题
 【自然语言处理】条件随机场【Ⅴ】条件随机场解码问题

3.6. 估计问题

条件随机场的估计问题是给定条件随机场 $P(Y\mid X)$ ，输入序列 $x$ 和输出序列 $y$ ，计算条件概率 $P(Y_i=y_i\mid x)$ ， $P(Y_{i-1}=y_{i-1},Y_i = y_i\mid x)$ 以及相应的数学期望的问题。方便起见，像隐马尔科夫模型那样，引入前向向量和后向向量，递推地计算以上概率及期望。

3.6.1. 前向向量与后向向量

定义 $N$ 维前向向量 $\alpha_t$ ， $t=0,1,\dots, T+1$
$\alpha_t = (\begin{matrix} \alpha_t(1)& \alpha_t(2)& \dots& \alpha_t(N) \end{matrix})^T$
其中 $\alpha_t(i)$ 定义为
$\alpha_0(i) = \left\{\begin{array}{l} 1,& i = {\rm start} \\ 0, & \textbf{otherwise} \end{array}\right.$

$\begin{align} \alpha_t(i) &= \sum_{y_{0}, y_{1}, \dots, y_{t-1}} D (y_0, \dots, y_{t-1},y_t=q_i\mid x, w) \notag \\ &= Z(x)\sum_{y_{0}, y_{1}, \dots, y_{t-1}} P (y_0, \dots, y_{t-1},y_t=q_i\mid x, w),\space\space\space\space t=1,2,\dots, T+1 \notag \\ \end{align}$

其中 $D$ 为非规范化概率。递推公式为

$\begin{align} \alpha_t(i) &= Z(x)\sum_{y_{0}, y_{1}, \dots, y_{t-1}} P (y_0, \dots, y_{t-1},y_t=q_i\mid x, w) \notag \\ &= Z(x)\sum_{j=1}^N \sum_{y_{0}, y_{1}, \dots, y_{t-2}} P (y_0, \dots, y_{t-1}=q_j,y_t=q_i\mid x, w) \notag \\ &= Z(x)\sum_{j=1}^N \sum_{y_{0}, y_{1}, \dots, y_{t-2}} P(y_t = q_i\mid y_0, \dots, y_{t-1} = q_j, x, w) P(y_0, \dots, y_{t-1}=q_j\mid x, w) \notag \\ &= Z(x)\sum_{j=1}^N P(y_t = q_i\mid y_{t-1} = q_j, x, w) \sum_{y_{0}, y_{1}, \dots, y_{t-2}} P(y_0, \dots, y_{t-1}=q_j\mid x, w) \notag \\ &= \sum_{j=1}^N M_{t}(y_{t-1} = q_j, y_t = q_i) \alpha_{t-1}(j), \space\space\space\space t=1,2,\dots, T+1 \tag{8}\\ \end{align}$
由 $\alpha_t(i)$ 构成向量 $\alpha_t$ 得矩阵形式的递推公式
$\alpha_t^T = \alpha_{t-1}^T M_t \tag{9}$
递推公式推导的最后一步，后半部分根据的定义转化为 $\alpha_{t-1}(j)$ ，前半部分转化为非规范化概率。对于前半部分的转化，我们从概率（推导）的角度来看，联合概率（以观测序列 $x$ 为条件的前提下）可以根据图结构所展现的条件独立性转化为条件概率的乘积 $P(y\mid x) = P(y_0)P(y_1\mid y_0) P(y_2\mid y_1) \dots P(y_{T+1}\mid y_T)$ ，这种拆分方式对应于前向概率的递推；从能量角度或者势函数角度来看，联合概率由各团对应势函数相乘得到。在 CRF 中，两个相邻状态构成一个团，不区分顺序，所以联合概率表示为 $P(y\mid x)=\psi_1(y_0, y_1)\psi_2(y_1, y_2)\dots, \psi_{T+1}(y_T,y_{T+1})$ ，其中 $\psi_t(y_{t-1}, y_t)$ 对应于 $M_t(y_{t-1}, y_t)$ 。可见，概率角度的条件概率与能量角度的势函数是一致的，注意势函数是非规范化概率，二者相差倍数 $Z (x)$ 。

类似地定义后向向量 $\beta_t$ ， $t=0,1,\dots, T+1$
$\beta_t = (\begin{matrix} \beta_t(1)& \beta_t(2)& \dots& \beta_t(N) \end{matrix})^T$
其中 $\beta_t(i)$ 定义为
$\beta_{T+1}(i) = \left\{\begin{array}{l} 1,& i = {\rm stop} \\ 0, & \textbf{otherwise} \end{array}\right.$

$\begin{align} \beta_t(i) &= \sum_{y_{t+1},\dots, y_{T+1}} D(y_t=q_i, y_{t+1}, \dots, y_{T+1}\mid x, w) \notag \\ &= Z(x) \sum_{y_{t+1},\dots, y_{T+1}} P(y_t=q_i, y_{t+1}, \dots, y_{T+1}\mid x, w),\space\space\space\space t=0,1, \dots, T \notag \end{align}$

递推公式为
$\begin{align} \beta_t(i) &= Z(x) \sum_{j=1}^N\sum_{y_{t+1},\dots, y_{T+1}} P(y_t=q_i, y_{t+1}=q_j, \dots, y_{T+1}\mid x, w)\notag \\ &= Z(x) \sum_{j=1}^N P(y_t = q_i\mid y_{t+1} = q_j, x, w) \beta_t(j) \notag\\ &= \sum_{j=1}^N M_{t+1} (y_t = q_i, y_{t+1} = q_j) \beta_{t+1}(j) ,\space\space\space\space t=0,1,\dots, T\tag{10} \end{align}$
由 $\beta_t(i)$ 构成向量 $\beta_t$ 得矩阵形式的递推公式
$\beta_t = M_{t+1}\beta_{t+1} \tag{11}$

后向向量推导与前向向量推导类似。由于无向图不区分条件方向，所以联合概率也可以表示为 $P(y\mid x) = P(y_{T+1})P(y_T\mid y_{T+1}) \dots P(y_0\mid y_1)$ ，这种拆分方式对应后向概率的递推。同时，两种拆分方式对应着在递推时右乘矩阵 $M_t$ 和左乘矩阵 $M_t$ 。

3.6.2. 概率计算

按照前向向量和后向向量的定义，很容易计算状态序列在时刻 $t$ 为状态 $q_i$ 的条件概率：
$P(y_t = q_i\mid x) = \frac{\alpha_t(i)\beta_t(i)}{Z(x)}\tag{12}$
根据式 $(8)$ 和式 $(10)$ 可以将上式化为
$\begin{align} P(y_t = q_i\mid x) &= \frac{\alpha_t(i)\beta_t(i)}{Z(x)} \notag \\ &= \frac{1}{Z(x)}\left(\sum_{n=1}^N \sum_{m=1}^N \dots \sum_{k=1}^N\sum_{j=1}^N M_1(y_0 = q_n, y_1 = q_m)M_2(y_1 = q_m, y_2 = q_l)\dots M_{t-1}(y_{t-2} = q_k, y_{t-1} = q_j) M_t(y_{t-1}=q_j, y_t = q_i)\right) \notag\\ &\space\space\space\space\space\space\space\space\space\space\space\space ·\left( \sum_{j=1}^N \sum_{k=1}^N \dots \sum_{m=1}^N\sum_{n=1}^N M_{t+1}(y_{t}=q_i, y_{t+1} = q_j) M_{t+2}(y_{t+1} = q_j, y_{t+2} = q_k) \dots M_{T}(y_{T-1} = q_l, y_T = q_m) M_{T+1}(y_T = q_m, y_{T+1}= q_n) \right) \notag \\ &= \frac{1}{Z(x)} \left(\sum_{y_0,\dots,y_{t-1}} M_1(y_0,y_1)\dots M_{t-1}(y_{t-2}, y_{t-1}) M_t(y_{t-1}, y_t = q_i)\right)·\left(\sum_{y_{t+1},\dots,y_{T+1}} M_{t+1}(y_t=q_i,y_{t+1})M_{t+2}(y_{t+1}, y_{t+2})\dots M_{T+1}(y_{T}, y_{T+1})\right) \notag\\ &= \frac{1}{Z(x)} \sum_{y_0,\dots,y_{t-1},y_{t+1},\dots,y_{T+1}} M_1(y_0,y_1)\dots M_t(y_{t-1}, y_t = q_i) M_{t+1}(y_t=q_i,y_{t+1}) \dots M_{T+1}(y_{T}, y_{T+1}) \notag \end{align}$
其中 $M_t(y_{t-1},y_t)$ 均为 $N$ 阶矩阵 $M_t$ 的一个元素。

在时刻 $t - 1$ 与 $t$ 为状态 $q_i$ 和 $q_j$ 的条件概率：
$P(y_{t-1}=q_i, y_t = q_j\mid x) = \frac{\alpha_{t-1}(i) M_t(y_{t-1}=q_i, y_t=q_j)\beta_t(j)}{Z(x)} \tag{13}$
同样地，利用式 $(8)$ 和式 $(10)$ 将上式化为
$P(y_{t-1}=q_i, y_t = q_j\mid x) = \frac{1}{Z(x)} \sum_{y_0,\dots,y_{t-2},y_{t+1},\dots,y_{T+1}} M_1(y_0,y_1)\dots M_{t-1}(y_{t-2},y_{t-1}=q_i)M_t(y_{t-1}=q_i, y_t = q_j) M_{t+1}(y_t=q_j,y_{t+1}) \dots M_{T+1}(y_{T}, y_{T+1})$

其中，
$\alpha_T^T\textbf{1} = \textbf{1}^T\beta_1$
$\textbf{1}$ 为元素均为 $1$ 的 $N$ 维列向量。

3.6.3. 期望计算

利用前向向量和后向向量，可以计算特征函数关于联合分布 $P (X, Y)$ 和条件分布 $P(Y\mid X)$ 的数学期望。

特征函数 $f_k(x,y)$ 关于条件分布 $P(Y\mid X)$ 的数学期望是
$\begin{align} E_{P(Y\mid X)} [f_k] &= \sum_{y} P(y\mid x) f_k(y, x) \notag \\ &=\sum\limits_{t=1}^{T+1} \sum\limits_{y_{t-1},y_t}P(y_{t-1},y_t\mid x)f_k(y_{t-1},y_t,x, t) \notag\\ &= \sum\limits_{t=1}^{T+1} \sum\limits_{i,j}f_k(y_{t-1}=q_i,y_t=q_j,x, t)\frac{\alpha_{t-1}(i) M_t(y_{t-1}=q_i, y_t=q_j)\beta_t(j)}{\alpha^T_T\textbf{1}},\space\space\space\space k=1,2,\dots, K \tag{14} \end{align}$
假设经验分布为 $\tilde P(X)$ ，特征函数 $f_k$ 关于联合分布 $P (X, Y)$ 的数学期望是
$\begin{align} E_{P(x,y)}[f_k] & = \sum\limits_{x,y}P(x,y) \sum\limits_{t=1}^{T+1}f_k(y_{t-1},y_t,x, t) \notag \\ & = \sum\limits_{x}\tilde{P}(x) \sum\limits_{y}P(y\mid x) \sum\limits_{t=1}^{T+1}f_k(y_{t-1},y_t,x, t) \notag\\ & = \sum\limits_{x}\tilde{P}(x)\sum\limits_{t=1}^{T+1} \sum\limits_{i,j}f_k(y_{t-1}=q_i,y_t=q_j,x, t) \frac{\alpha_{t-1}(i)M_t(y_{t-1}=q_i,y_t=q_j\mid x)\beta_t(j)}{ \alpha_{T}^T \mathbf{1}},\space\space\space\space k=1,2,\dots, K \tag{15} \end{align}$
式 $(12)$ 和式 $(13)$ 是特征函数数学期望的一般计算公式。对于转移特征 $t_i(y_{t-1}, y_t, x, t)$ ， $i=1,2,\dots, K_1$ ，可以将式中的 $f_k$ 换成 $t_i$ ；对于状态特征，可以将式中的 $f_k$ 换成 $s_j$ ，表示 $s_j(y_t, x, t)$ ， $j=1,2,\dots, K_2$ 。

有了式 $(12)\sim (15)$ ，对于给定的观测序列 $x$ 和状态序列 $y$ ，可以通过依次前向扫描计算 $\alpha_t$ 和 $Z (x)$ ，通过一次后向扫描计算 $\beta_t$ ，从而计算所有的概率和特征的期望。