概率图模型(06): 概率图双重对偶视角 || 马尔可夫网 & 条件随机场及应用

　　本博客中 PGM 系列笔记以 Stanford 教授 Daphne Koller 的公开课 Probabilistic Graphical Model 为主线，并参阅 Koller著作及其翻译版对笔记加以补充。博文的章节编号与课程视频编号一致。
　　博文持续更新（点击这里见系列笔记目录页），文中提到的资源以及更多见 PGM 资源分享和课程简介。

　　本文围绕马尔可夫网（MNs），讨论三方面内容：

　　1）MNs 的模型：成对马尔可夫网，吉布斯分布，条件随机场，对数线性（Log-Linear）模型，伊辛（Ising）模型，度量马尔可夫随机场。作为模板的共同特征提取。
　　2）MNs 的结构：独立关系，因子分解，以及两者等价性。BNs 和 MNs 的相互转化，概率图统一的双重对偶视角，I-map，P-map 的存在唯一性，通过图完美捕捉分布中的所有独立性。
　　3）MNs 的应用：详解 CRFs 应用的建模思路和方法分析：图像去噪，图像分割，三维重建，自然语言处理。

1 成对马尔可夫网

1.1 形式化表示

成对马尔可夫网 ( Pairwise Markov Networks ) : 一个以随机变量 $X_i$ 为节点无向图网络，每一条边代表一个因子 $\phi_{ij}(X_i,X_j)$ .

它是马尔可夫网中最简单的一种，是因子定义在成对变量上的分布。

1.2 简单例子

右下图表示了一个由四个随机变量 $A,B,C,D$ 组成的成对马尔可夫网。网络中的因子均定义在只由两个成对随机变量组成的变量集上，即 $D_1=\{A,B\}, D_2=\{B,C\}, D_3=\{C,D\}, D_4=\{D,A\}.$
这里写图片描述

1.2.1 联合分布

左上图是由所有（四个）因子相乘计算得到的右上图例子的联合分布表。表中“unnormalized”列的因子积是未经过归一化的，所以这些值只是因子积，还不算是严格意义上的一个分布表示。

1.2.2 配分函数

为了进行归一化，计算上图例子中的配分函数（partition function） $Z =\sum\limits_{A,B,C,D}\widetilde P_Φ(A,B,C,D)$ ，即“unnormalized”这一列因子积值的加和。得到了“normalized”列即为该网络的联合分布表。

1.3 如何理解因子

1.3.1 因子和什么有关

　　在成对马尔可夫网中，从因子能否看出其分布的独立性？能否尝试将因子理解为变量在其辖域上的边缘分布？
　　如果这样，我们通过观察任何一个因子，都有可能相信由马尔可夫网定义的整体联合分布与因子定义的分布有相似的特性（比如某两变量间边上的因子很小，那么这两个变量倾向于边缘独立）。
　　然而答案是否定的：
这里写图片描述
答案是和以上三个都无关，所以因子的特殊含义就是本文马尔可夫网要讲的内容。

1.3.2 从因子到联合分布

　　下面我们继续上文的例子，来解释：为何难以将边缘独立性和因子关联起来？

边缘分布：划掉某些因子后考虑剩余因子上的联合分布，即为剩余因子的边缘分布，如左下表1。

这里写图片描述
　　如上左图为计算得 $A,B$ 的边缘分布，而其中概率最小的 $(a^0,b^0)$ 在因子 $\phi_1(A,B)$ 中却是概率最大。即我们观察到，某个特定因子所传达的变量间关系，呈现在联合分布中时，可能会被其他更强的因子淹没掉。即从因子到最终推得联合分布的过程中，每个个体因子的部分信息被淹没了，而留下来的是网络作为整体的信息。
　　通过这个例子需要明确，一个因子仅仅是影响联合分布的一个因素，而作为网络整体的联合分布必需将所有因子的影响考虑进去。网络的联合分布是所有因子共同作用产生的结果。

1.4 更大的网络例子

　　值得一提的是，是否是成对马尔可夫网由因子的选取决定。比如下图，只要我们将因子选取在成对变量上，它就是一个更大的成对马尔可夫网例子。
这里写图片描述

2 吉布斯分布

2.1 成对马尔可夫网的局限

　　成对马尔可夫网不能表示变量的所有组合：表示一个 $n$ 个节点，每个节点有 $d$ 个属性取值的马尔可夫网所需的变量个数为 $O(n^2d^2)$ 。但如果节点任意搭配所需使用的变量个数是 $O(d^n)$ ，远大于前者。即成对马尔可夫网的所能表达的分布个数远小于实际网络可能的分布个数。

　　所以不是每一个分布都可以表示为成对马尔可夫网。

2.2 形式化表示

　　这里给出马尔可夫网的形式化描述，可以先不详细看。对于一个以随机变量 $X_i$ 为节点无向图网络，定义：

变量集：网络中的随机变量被划分为多个变量集，记作 $D_k=\{X_{k_{1}},...,X_{k_{l_k}}\}$ .
因子 ( factor )：因子 $\phi$ 是定义在随机变量集合 $D$ 上值域为实数的函数，通常我们关心非负因子；
辖域 ( Scope )：变量集 $D$ 称为因子 $\phi$ 的辖域。记作 $Scope[\phi]$ ；
因子乘积: 将两个有公变量的变量集按其公共变量的统一属性对应的因子做乘积，如 $\psi(X,Y,Z)=\phi_{X,Y}(X,Y)\phi_{Y,Z}(Y,Z)$ .
因子的联合分布：因子的联合分布由其辖域上的因决定，即 $\phi _k(D_k)=\prod\limits_{l=1}^{l_k}\phi _{l}(X_{l})$ .
网络的联合分布：马尔可夫网的联合分布由其所有因子的联合分布 $\phi _k(D_k)$ 之积决定，即 $P_{\Phi}(X_1,...,X_n)=\prod\limits_{k=1}^m\phi _k(D_k)$ .

可以看到，上述我们得到的网络联合分布概率的表示，在严格意义上还不是一个分布，因为这个概率之和不一定为 1，所以这里需要对网络进行归一化。我们定义

配分函数 ( partition function )：用于联合分布表示中的归一化参数，即 $Z =\sum\limits_{X_1,...X_n}\widetilde P_{\Phi}(X_1,...X_n)$

现在我们可以给出上述马尔可夫的网联合分布一个严格表示

式 (1) : P Φ (X 1, . . . X n) = 1 Z P ˜ Φ (X 1, . . . X n) .

$式 (1) :P_{\Phi}(X_1,...X_n)=\frac{1}{Z}\widetilde P_{\Phi}(X_1,...X_n).$

2.3 吉布斯分布

式 (1) 所表示的分布被称作一个被因子集 $\Phi ={\phi_1(D_1),...,\phi_K(D_K)}$ 参数化的吉布斯分布，记作 $P_{\Phi}$ .

与成对马尔可夫网这种因子定义在成对变量上的马尔可夫网相比，可以将吉布斯分布直观理解为

吉布斯分布 ：是马尔可夫网中因子定义在变量集的分布。

并且吉布斯分布将分布表示为了因子的乘积，提出了一种对于分布的分解表示方式。

2.4 由因子导出图

　　既然网络联合分布由因子决定，而吉布斯分布是因子定义在变量集上的分布。那么，是否可以由吉布斯分布的因子来推出其相应图的结构呢？
　　如图，给出两个因子，其导出的马尔可夫网络（Induced Markov Network）如右图。
这里写图片描述
　　一般地，给出如上因子集，和其对应的一组随机变量 $X_i$ ，当存在辖域 $D_k$ 满足 $X_i, X_j\in D_k$ 时，导出的马尔可夫网 $\mathcal H_{\Phi}$ 中有 $X_i-X_j$ 这条边。即属于同一辖域的变量两两之间有边连接（Induced MN has an edge $X_i-X_j$ whenever they appear together in the same scope）。

2.5 因子分解

对于给定的一个分布 $P$ ，是否可以用吉布斯分布来表示它呢？

因子分解：如果存在一个因子集 $\Phi ={\phi_1(D_1),...,\phi_K(D_K)}$ 使得 $P_{\Phi}=P$ ，则称分布 $P$ 可以由马尔可夫网 $\cal H$ 因子分解。

2.6 从图到因子分解

　　现在反过来考虑，给定一个吉布斯分布对应的图，是否可以推出其因子集（因子分解）？
这里写图片描述
　　答案是“All of above”，即从图读不出因子分解，即马尔科夫网的结构不能完全地刻画（fully specify）出分布的特性。

　　我们看到，不同的吉布斯分布（和其对应的因子分解）可能导出相同马尔可夫网络（Induced MN）图，且这些图性质无差别。即吉布斯分布的表达能力（expressive power）要强于图结构的表达能力。
　　这很好理解，前文 2.1 部分已经阐述了成对马尔可夫网的所能表达的分布个数远小于实际网络可能的分布个数，而这里的成对马尔可夫网实际上和导出图的结构一一对应（成对 MN 的因子与导出图的边一一对应）。

　　注：“图的结构”怎么理解？由于马尔可夫网是无向图，所以图的结构就完全有图中的边来决定。两个节点相同的图（随机变量一定），边一一对应则两图结构相同。

2.7 影响的流动 ( Flow of Influence )

　　同贝叶斯网一样，马尔可夫网中也存在节点间影响的流动，而且这里的 Flow 似乎更自由。
　　由于是无向图，故当所有节点均未被观测时，影响的流动与节点类型无关（即不区分有向图中的父子节点），只要两节点间存在路径（迹），影响就可以流动。当有部分节点被观测时，只要两个节点间某一条迹上节点均未被观测，该迹上仍可以有影响力流动，并称该迹是激活（active）的。

若节点均未被观测，影响可以在任何迹中流动。
若有节点被观测了，影响可在激活的迹中流动。

即马尔可夫网中影响沿着任何无向迹流动，仅当我们对迹中某些节点取条件时，流动才会受到阻碍。

2.8 重点总结

吉布斯分布将分布表示为了因子的乘积；
由因子导出的马尔可夫网中，属于同一辖域的变量两两之间有边连接；
马尔可夫网的结构不能完全地刻画出分布的特性；
马尔可夫网中影响沿着任何无向迹流动，仅当我们对迹中某些节点取条件时，流动才会受到阻碍。

3 条件随机场

　　条件随机场（CRF, Conditional Random Fields）与马尔可夫网（MN, Markov Network）结构类似，但目的不同，它采取与吉布斯分布不同的配分函数去归一化分布。

3.1 朴素贝叶斯网的不足

当一个问题的 features 为 $X,Y$ ，且 $X$ 已知（Obeserved）， $Y$ 未知（Target）。朴素贝叶斯（NB）的求解是假设 $X$ 这组特征 $x_1,...,x_m$ 间两两独立，但提出 NB 的时候也说明过，这个假设过强，通常难以满足。
　　为了弥补这点，条件随机场（CRF）将所有 feature（已知或未知）整体看作是马尔可夫网（MN）的变量，两两之间都可以相关。对问题的求解转化为求解这个网络分布在 $X$ 上的条件分布，它使得我们在模型 features 的选取上灵活很多，不需要担心观察到的特征变量间是否有相关性了。

3.2 形式化表示

　　条件随机场即为观察到了一些（已知）变量的马尔科夫网，该马尔科夫网剩下（未知）变量的条件概率的公式化表示即为条件随机场的公式化表示。该模型可以忽视观察变量之间的相关性，因为它们已经被观察到了。其与吉布斯分布的区别在于归一化方式不一样，这是由于 CRF 的归一化因子中的观察变量是常量2。

　　具体来说， CRF 的形式化表述为（符号同吉布斯分布，故不赘述）：
　　对于一个有因子集 $\Phi ={\phi_1(D_1),...,\phi_K(D_K)}$ 的分布，有 $P_{\Phi}(X,Y)=\prod\limits_{i=1}^{k}\phi _{l}(D_i)$ ，由于部分变量即 $X$ 已知，故联合分布此时为一个条件分布。与吉布斯分布的区别在于，此时配分函数需要归一化的是这个条件分布，故有 $Z_{\Phi}=\sum\limits_{Y}\widetilde P_{\Phi}(X,Y)$ ，进而有

P Φ (Y | X) = 1 Z Φ P ˜ Φ (X, Y)

$P_{\Phi}(Y|X)=\frac{1}{Z_{\Phi}}\widetilde P_{\Phi}(X,Y)$ 　　条件随机场（CRF）实际上是由

X $X$ 确定的一簇条件概率分布（a family of CPDs which varies by

X $X$ ）。

3.3 CRFs and Sigmoid Model

　　模型中有二值证据变量 $\textbf{X}$ $=\{X_i\}$ 以及未知二值变量 $Y$ ，其指示函数为 $Φ(X_i,Y)=exp(w_i\textbf{1}(X_i=1,Y=1))$ ，当

$Y$ 为 1 时 $Φ(X_i,Y=1)=exp(w_iX_i)$
$Y$ 为 0 时 $Φ(X_i,Y=0)=1$

从而可以判断 $Y$ 分别为 1 和 0 的（未归一化）概率为

$\widetilde P_{\Phi}(X_i, Y=1)=exp\sum_i(w_iX_i)$
$\widetilde P_{\Phi}(X_i, Y=0)=1$

从而其配分函数为

Z Φ = \sum Y P ˜ Φ (X, Y) = P ˜ Φ (X, Y = 1) + P ˜ Φ (X, Y = 0)

$Z_{\Phi}=\sum\limits_{Y}\widetilde P_{\Phi}(X,Y)=\widetilde P_{\Phi}(X,Y=1)+\widetilde P_{\Phi}(X,Y=0)$

从而得到条件分布为 Sigmoid 函数

P Φ (Y = 1 │ X) = e x p \sum i ( w i X i ) 1 + e x p \sum i ( w i X i )

$P_Φ(Y=1│{\bf X})=\frac{exp\sum_i(w_iXi)}{1+exp\sum_i(w_iX_i)}$ 　　由此可对位置变量

Y $Y$ 做出预测。　　

3.4 CRF 的应用3

　　(1) 图像分割：用于超级像素分类，而不论其采用了何种特征、特征之间是否有关系。
　　(2) 自然语言处理：给句子中的词打标签，其特征可以是：首字母是否大写，词语的位置，前后词等。

4 马尔可夫网中的独立性

　　因子分解将分布被表示为因子之积，这与该分布蕴含的独立关系之间有着复杂联系，这是概率图模型最优美的性质之一。

　　这部分讨论马尔可夫网中的独立性( Independencies in MNs )，类似贝叶斯网中的讨论（点击这里），给出考察图结构的两等价观点（双重对偶视角）：因子分解和独立性关系。

4.1 分离

　　前文这里定义激活的迹（active trial）为：迹中所有节点均未被观测。现在在马尔可夫网 $\cal H$ 中定义分离的概念 ( Separation in MNs ) :

分离：节点 $X$ 与 $Y$ 之间没有激活的迹，则它们是分离的。记作 $sep_{\mathcal H}(X,Y|Z)$ 。

注：分离概念的英文陈述： $X$ and $Y$ are separated in $\cal H$ given $Z$ if there is no active trail in $\cal H$ between $X$ and $Y$ given $Z$

4.2 独立性

分离的性质是否可以给出一个分布中的独立性信息呢？具体地，当分布 $P$ 可以根据马尔科夫网 $\cal H$ 因子分解时：

定理（独立性）: 节点 $X$ 与 $Y$ 是分离的，则它们是独立的。

这里写图片描述
如图为独立性的形式化表述。右上图的例子中，以下几种情况下都满足 $A$ 和 $E$ 独立：
　　1） $(A\perp E|B)$ ，2） $(A\perp E|B,E)$ ，3） $(A\perp E|B,C)$ ；

4.3 图结构的两等价观点

　　类似博文（点击这里）中贝叶斯网中的讨论，对于马尔可夫网 $\cal H$ 也有独立性集合和 I-Map 的定义。

$\cal H$ 导出的独立性集合： $\mathcal I(\mathcal H)=\{(X\perp Y|Z):sep_{\mathcal H}(X,Y|Z)\}$
I-map：如果分布 $P$ 满足 $\mathcal I(\mathcal H)$ ，即 $\mathcal I(\mathcal H)\subseteq \mathcal I(P)$ ，称 $\cal H$ 为分布 $P$ 的 I-map（Idpendence Map）。

一个分布的 I-map 体现了该分布中蕴含的独立性。以下介绍两个关于 I-map 的可靠性定理。

　　设P是一个分布，H是一个马尔科夫网结构，则：

　　1）如果 $P$ 是在 $\cal H$ 上因子分解的一个吉布斯分布，则 $\cal H$ 是 $P$ 的一个 I-map；
　　2）如果 $\cal H$ 是正分布 $P$ 的一个 I-map，则 $P$ 是在 $\cal H$ 上因子分解的一个吉布斯分布。

注1：这两个定理的英文陈述如下
　　1）If $P$ factorizes over $\cal H$ , then $\cal H$ is an I-map of $P$ ;
　　2）Hammersley Clifford th：For a positive distribution $P$ , if $\cal H$ is an I-map for $P$ , then $P$ factorizes over $\cal H$ .
注2：正分布即因子均为正数的分布。

　　至此，类似贝叶斯网络中的讨论，我们得到了描述图结构的两种等价性观点：
　　 $P$ 是在 $\cal H$ 上因子分解的吉布斯分布 $\Longleftrightarrow$ $\cal H$ 是 $P$ 的一个 I-Map

这里写图片描述

　　至此，我们得到一个分布的因子分解对应于该分布蕴含的独立性关系。

5 I-maps and Perfect Maps

5.1 从图中捕捉分布的独立性？

　　同贝叶斯网中的讨论（点击这里）一样，前文我们在马尔可夫网中得到了相同的等价观点。结合起来就是概率图的双重对偶视角：

$P$ 在图 $\cal G$ 上因子分解 $\Longleftrightarrow$ $\cal G$ 是 $P$ 的一个 I-Map

而 $\cal G$ 是 $P$ 的一个 I-Map 又蕴含 $\mathcal I(\mathcal G)\subseteq \mathcal I(P)$ 。但注意这不是 $\mathcal I(\mathcal G)=\mathcal I(P)$ ，故当 $P$ 在图 $\cal G$ 上因式分解时：

$\cal G$ 中蕴含的所有独立性关系都包含在 $P$ 中

但反之未必（not always vice verse），即分布 $P$ 中的独立性关系不一定全体现在图 $\cal G$ 中（there can be independencies hold in $P$ that are not encoded by the graph $\cal G$ ）。这就是我们这节要讨论的内容：何时可以尝试可以从图中读出分布的所有独立性？

5.2 稀疏图

　　若从图中读不出分布的所有独立性，这有什么不利的影响呢？

　　事实上，包含独立性信息越少的图通常包含更多边，使得建模的过程不必要地冗杂。一般地，如果一个图 $\cal G$ 能够表达分布 $P$ 的独立性越多，则这个图

越稀疏（sparser，fewer parameters，fewer edges）
传递了更多的信息量（more informative）

所以对于一个分布 $P$ ，我们希望能够找到一个能体现其中尽可能多的独立性的稀疏图（Sparse Graph） $\cal G$ 。

5.3 最小 I-map

　　如何寻找上述的体现分布中更多独立性的稀疏图？

　　我们知道，冗余边通常导致着更少的独立性，所以如下定义最小 I-map ( Minimal I-map)，试图捕获分布中更多的独立性。

最小 I-map：没有冗余边的 I-map，即去掉任何一条边，则图无法满足分布的某些独立性关系。

但最小 I-map 的定义不是完美的（may still not capture $\mathcal I(P)$ ）， 没有冗杂边不代表这个图已经尽可能地稀疏了，更不等同于可以捕获所有的独立性。例如对于贝叶斯网络中的 V 型结构 $D\rightarrow G \leftarrow I$ ，即 $\mathcal I(P)=\{(D\perp I)\}$ ，有以下两图都是其最小 I-map：
这里写图片描述
　　左图显然；我们来考察右图，首先由于 $\mathcal G_{右}=\varnothing$ ，故 $\mathcal I(\mathcal G_{右})\subseteq \mathcal I(P)$ ，即右图是 $P$ 的一个 I-map。那么若去掉其中一条边会怎样？

去掉 $D\rightarrow G$ ：则有 $(D\perp G)$ ；
去掉 $G\rightarrow I$ ：则有 $(G\perp I|D)$ ；
去掉 $D\rightarrow I$ ：则有 $(D\perp I|G)$ 。

这三个独立性断言都这不属于 $\mathcal I(P)$ ，故这三种情形下都有 $\mathcal I(\mathcal G_{右})\nsubseteq \mathcal I(P)$ ，即右图不再是 I-map 。所以这三条边都不能去掉，从而右图是最小 I-map。

5.4 完美图

5.4.1 P-map 的定义

　　是否有图可以完美捕捉分布中的独立性呢？（对于贝叶斯网 BN 和马尔可夫网 MN）我们定义：

完美图（Perfect Map）: 图 $\cal G$ 导出的独立性集合与分布 $P$ 对应的独立性相等，即 $\mathcal I(\mathcal G)=\mathcal I(P)$ ，称 $\cal G$ 为 $P$ 的完美图。

这样的图 $\cal G$ 完美地捕捉了 $P$ 中的所有独立性假设。 这正是我们想要找的一种图，但无论选择马尔科夫网还是贝叶斯网作为分布的 P-map，都有

经常会不存在 P-map；
有时存在多个 P-map 。

接下来举例说明有些分布不存在作为 MN 或 BN 的 P-map，并讨论 P-map 不唯一的例子。

5.4.2 BN 不存在 P-map 的例子

这里写图片描述

例1：分布是 $\mathcal I(P)=\{(A\perp C|B,D),(B\perp D|A,C)\}$ 。

记上图分别图1, 2, 3, 4。图1是 $P$ 作为 MN 的 P-map，图2, 3, 4中尝试用 BN 作为 $P$ 的 P-map，但都失败。这是由于图1, 2中都蕴含了一些不属于 $P$ 中的独立性，分别是图1中的 $(B\perp D|A)$ 和图2中 $(A\perp C)$ 。而图3虽然是 $P$ 的 I-map，但并不是 P-map，因为没有体现出 $P$ 中 $(B\perp D|A,C)$ 这条独立性。

例2：分布如下图右表所示， $Y$ 是关于 $X_1,X_2$ 的异或函数（XOR）。

这里写图片描述
　　从联合分布表中可以读出 $\mathcal I(P)=\{(X_1|X_2),(X_1|Y),(X_2|Y)\}$ ，但左图只满足 $(X_1|X_2)$ ，同时必然无法满足 $(X_1|Y),(X_2|Y)$ ，故不是 P-map。又注意到这三个独立性断言形式上是对称的，所以任何 BN 的尝试都无法同时满足这三条独立性。

　　以上两个例子均不存在作为 BN 的P-map。

5.4.3 MN 不存在 P-map 的例子

这里写图片描述

　　左图是 $\mathcal I(P)=\{(D\perp I)\}$ 的 P-map，我们来尝试用 MN 构造其 P-map：首先由于 $(D\perp G),(G\perp I)\nsubseteq \mathcal I(P)$ ，故 $D,G$ 相关， $G,I$ 相关，故 MN 中必然有 $D-G,G-I$ 这两条边。那么该 MN 是应该否添加 $D-I$ 边？若没有，则 $(D\perp I|G)$ ，不满足 $P$ 。若有，则 $D,I$ 相关，也不满足 $P$ 。

　　故这个例子均不存在作为 MN 的P-map。

5.4.4 P-map 的不唯一性

　　现在举例说明 P-map 的不唯一性。分布 $P$ 满足 $\mathcal I(P)=\{(X\perp Z|Y)\}$ ，下图四种结构中，除了第三种 $X\rightarrow Y\leftarrow Z$ 体现的独立性是 $(X\perp Z)$ 外，其余三种都是 $P$ 的 P-map。
这里写图片描述

5.5 I-等价

　　如何理解 $P$ 的 P-map 的不唯一性呢？我们有如下概念

I-等价（I-equivalence）: 如果两个图的独立性集合完全相同，即 $\mathcal I(\mathcal G_1)=\mathcal I(\mathcal G_2)$ ，则称这两个图是 I-等价的。

可以看到，前一例中的三种结构彼此 I-等价，它们分别是为贝叶斯网络的因果迹、证据迹与共同原因迹。注意大多数图都有很多与其 I-等价的图。

5.6 重点总结

　　1）捕捉分布中独立性的方法

　　这部分我们一直在努力对给定分布寻找一个图，使得该图可以捕捉到该分布中的所有独立性。讨论到了两种尝试，分布是 I-map 和 P-map，两者各有优劣，且都没能完美地解决问题我们的问题。

I-map：虽然 I-map 一定存在，但 I-map 无法捕捉分布中的所有独立性；
P-map：虽然 P-map 捕捉了分布中的所有独立性，但 P-map 经常不存在。

2）从分布构建图

　　通过分布构建网络图时候，我们可以把每个节点写成因子的形式，然后根据因子关系构建相应网络。即借助节点与其父节点，子节点的关系构建网络的结构。比如 BN 有由父节点指向子节点的有向边，比如 MN 中有边连接的两节点是不独立的。

３）MN 和 BN 的转换

　　前文例子涉及到了很多贝叶斯网和马尔可夫网之间的转化。但事实上，在 MN 和 BN 的转换过程中，很多独立性关系流失掉了。

　　(1)BN 转 MN：会损失 V-结构中的独立性关系；
　　(2)MN 转 BN：需要在环状结构中添加边以构成三角形。

6 对数线性模型

　　局部结构（local sturcture）, 即课程第 05 部分（点击这里）所讨论的条件概率分布（CPD），可以通过条件概率表格（CPT, Conditional Probability Table）来表示，而不需要列出整个联合分布表（full table）。CPDs 在概率图（MNs 和 BNs）模型中十分重要。在 MNs 中，可以选择对数线性模型来体现网络的局部结构。

6.1 形式化表示基于特征的模型

　　对数线性模型中（Log-Linear Model），对于一个分布 $P$ ，这里定义其特征（features）集和和对应的系数（coefficients）（一系列权重）如下

特征集： $\mathcal F=\{f_1(D_1),...,f_k(D_k)\}$
系数： $\omega_1,...,\omega_n$

吉布斯分布中，整体分布的概率由因子之积 $\tilde P=∏_i\phi_i(D_i)$ 决定，这里将其转化为关于特征（features）的对数线性表达形式

P = e x p (- \sum j ω j f j (D j)) = \prod j e x p (- ω j f j (D j))

$P~=exp(−\sum_j\omega_jf_j(D_j))=∏_jexp(−\omega_jf_j(D_j))$ 　　其中，

ωj $\omega_j$ 是第

j $j$ 个特征函数

fj(Dj) $f_j(D_j)$ 的系数，

Dj $D_j$ 是

fj $f_j$ 的辖域（scope）。注意这里不同特征函数的辖域可以相交。

6.2 表格因子的表示

　　给定一个吉布斯分布中的因子，它定义在二值随机变量 $X_1,X_2$ 上，如下

ϕ (X 1, X 2) = (a 00 a 10 a 01 a 11)

$\phi (X_1,X_2)= \begin{pmatrix} a_{00} & a_{01}\\ a_{10} & a_{11} \end{pmatrix}$ 　　该式意为，比如

ϕ(0,0)=a00 $\phi (0,0)=a_{00}$ 。为了用对数线性模型将该因子表示，我们可以按如下方法设置特征函数：

f 0012 = 1 (X 1 = 0, X 2 = 0) f 0112 = 1 (X 1 = 0, X 2 = 1) f 1012 = 1 (X 1 = 1, X 2 = 0) f 1112 = 1 (X 1 = 1, X 2 = 1)

$f^{00}_{12}=\textbf{1}(X_1=0,X_2=0)\\ f^{01}_{12}=\textbf{1}(X_1=0,X_2=1)\\ f^{10}_{12}=\textbf{1}(X_1=1,X_2=0)\\ f^{11}_{12}=\textbf{1}(X_1=1,X_2=1)$ 　　其中

1 $\textbf{1}$ 为指示函数（indicator function），当括号内的条件为真时取值为 1，为假时取值为 0。这时因子的线性表示为：

ϕ (X 1, X 2) = e x p (- \prod k l ω k l f k l i j (X 1, X 2) ）

$\phi(X_1,X_2)=exp(−∏_{kl}\omega_{kl}f^{kl}_{ij}(X1,X2)）$ 　　该式意为，比如

ϕ(0,0)=exp(−ω00) $\phi (0,0)=exp(-\omega_{00})$ 。对比原本的因子表示，我们得到

ωkl=−log(akl) $\omega_{kl}=−log(a_{kl})$ .

6.3 语言处理中的特征选取

　　以语言处理为例，建立对数线性条件随机场模型，目的是辨别句子中单词的类型标签（地名，人名，其他）。
这里写图片描述
　　一句话被划分为单个词，两组随机变量 $\bf X,Y$ 定义在单词上。图中标记的 $\bf Y$ 是词的标签，含义为：

B-PER：人名的开始（Beginning of a person’s name）
I-PER：人名的持续（Continuatoin of a person’s name）
B-LOC：地名的开始（Beginning of a location）
I-LOC：地名的持续（Continuatoin of a location）
OTH：其他（Other）

$X_i$ 代表第 $i$ 个单词。所以问题等价于：已知一组随机变量 $\bf X$ ，预测一组随机变量 $\bf Y$ 的取值。

用 Log-Linera Model 建模，需要在辖域 $\{\bf X,Y\}$ 上选取特征（特征函数）。以下举三个特征选取的例子，这些特征都可以体现词语本身与其标签之间的联系（connection between the label of the word and the word itself ）。

　　１） $f_1(Y_i,X_i)=\textbf{1}(Y_i=B−PER,X_i\ is\ capitalized)$ ，即若单词首字母大写，则单词更有可能是人名的开始。
　　２） $f_2(Y_i,X_i)=\textbf{1}(Y_i=B−PER,X_i\ is\ in\ name\ list)$ ，即单词属于一个已知的人名名单，则单词更有可能是人名的开始。
　　3） $f_3(Y_i,X_i)=\textbf{1}(Y_i=B−LOC,X_i\ is\ in\ atlas)$ ，即单词属于一个已知地图集（atlas），则单词更有可能是地名的开始。

　　通过系数 $\omega_i$ 调整不同特征函数的权重，可以灵活指定每一个特征的重要程度。比如： $f_1$ 即单词首字母大写，对于判定该单词是“人名的开始”有多重要。

　　模型通过选取一组丰富的特征函数，分别考察单词某个特定方面的特征，并给不同特征分配权重，综合作为分类依据。而不需要列举每个单词，分别估算其作为人名，地名，或其他的概率有多大。

6.4 伊辛模型

　　伊辛模型（Ising Model）是一个 pairwise 马尔科夫模型，出现于统计物理学，作为原子相互作用的物理系统的能量模型。
这里写图片描述
　　 $x_i$ 为二值空间 $\{1,-1\}$ 上的随机变量，其正负定义了原子自旋方向。选择特征为“与边关联的能量函数”即 $f_{i,j}(x_i,x_j)=x_ix_j$ ，以及“单个节点的位势” $x_i$ 。参数 $u_i$ 仅在个体变量选择旋转时产生影响，故模型着重在于讨论 $\omega_i$ 。伊辛模型的能量值为

E (x 1, \dots, x n) = - \sum (i, j) \in E d g e s, i < j w i, j x i x j - \sum i u i x i

$E(x_1,…,x_n)=-\sum _{(i,j)\in \ Edges,\ i<j}w_{i,j}x_ix_j−∑_iu_ix_i$ 　　当

ωi,j>0 $\omega_{i,j}>0$ ，模型倾向于原子自旋取相同方向，此时交互影响称为铁磁的（ferromagnetic）；
　　当

ωi,j<0 $\omega_{i,j}<0$ ，模型倾向于原子自旋取相反方向，此时交互影响称为反磁的（antiferromagnetic）。

　　记系统温度参数为 $T=\prod_{(i,j)\in \ Edges,\ i<j}\omega_{ij}$ ，则该能量函数定义了如下分布

P (X) \propto e x p (- 1 T E (X))

$P(X)∝exp(−\frac{1}{T}E(\textbf{X}))$ 　　当温度

T $T$ 增大时

ωi,j $\omega_{i,j}$ 相应减小，相邻原子间的相互作用力变小，趋于解耦（decoupled）。反之亦然。

6.5 度量马尔科夫随机场

　　度量马尔科夫随机场（Metric MRFs）中定义了度量空间和距离函数的概念。

假设：所有的变量的在同一空间 V 中取值（all $X_i$ take values in label space V）
目标：使变量间取值尽可能相近（want $X_i,X_j$ to take similar values）

故特征选择为两个变量之间的距离函数（distance fuction），距离函数 $\mu:V\times V\rightarrow R$ 需要满足以下三条：
　　1）自反性（Reflexivity）： $\mu(v,v)=0,\ for\ all\ v.$
　　2）对称性（Symmetry）： $\mu(v_1,v_2)=\mu(v_2,v_1),for\ all\ v_1,v_2.$
　　3）三角不等式（Triangle inequality）： $\mu(v_1,v_2)\leq \mu(v_1,v_3)+\mu(v_3,v_2),for\ all\ v_1,v_2,v_3.$

　　满足条件 1, 2 称为半度量（semimetric）空间，均满足则称为度量（metric）空间。

　　特征函数取为 $f_{i,j}(X_i,X_j)=\mu (X_i,X_j)$ ，分布为 $exp(-\sum_{i,j}\omega_{i,j}f_{i,j}(X_i,X_j)),\ \omega_{i,j}>0.$

　　这里列举三种距离函数：
这里写图片描述
　　1）阶梯函数（step function）: 到自身距离为 0，到其他节点的距离为 1；
　　2）线性函数（linear function）: 距离定义为两个节点数值之差的绝对值；
　　3）截断范式（truncated linear penalty）: 在 2）的基础上设限（threshold），当超过此上限距离函数的值为常数。

6.6 Metric MRFs 在计算机视觉的应用

　　马尔可夫网（MNs）的在计算机视觉领域（the context of of computer vision）的应用通常以成对马尔可夫随机场（pairwise MRFs）的形式出现。并在 pairwise MRFs 结构下选取距离函数作为特征函数，即为 Metric MRFs 。
　　这里举例 Metric MRFs 在三处应用中特征函数的选取（翻译版书 Page 111 中有相关介绍）。

　　注：由于计算代价昂贵，故常将图像先分成一些超级像素（superpixels），即一些连贯的小区域，然后对这些超级像素分类。属于一个超级像素内的所有像素被划分为同一类。

图像分割（Image Segementation）

目标：将图像中的像素按其对应场景分类（比如天空，草地，楼房）；
分析：倾向于相邻超级像素被分为同一类，故当相邻两超级像素属于不同类时给予惩罚（penalty）；
模型：变量对应于超级像素，在原图中每一对相邻的超级像素间存在一条边；
特征：以每一对有边相连的两变量为一个辖域，定义其上特征函数为 step function，权重刻画对相邻像素间应分为一类的偏好程度。
说明：1）这个特征是定义在像素值上，用来刻画图像中相邻超级像素之间的相似程度。实际中，特征函数还可以定义在像素的纹理，地点上来提取特征；
　　　2）模型实际上在每个超级像素的分类标签上定义了一个条件随机场。

图像去噪（Image Denoising）

目标：还原赋值可能是噪声值的所有像素的真实值；
模型：同上；
特征：选择 truncated linear penalty。截断可以避免过度惩罚真实的不一致性比如物体边缘，以免图像过度光滑。

三维重建（Stereo Reconstruction）

目标：重建图像中每个像素的深度差异；
模型：同上；但变量取值不再是像素值，而是像素离散化程度所体现的深度维度 ( 离相机越近，像素更精细；反之离散化程度越高 )；
特征：选择 truncated linear penalty。截断可以避免过度惩罚相邻像素之间的深度差异。

7 作为模板的共同特征

　　大部分 MRFs 中，相同的特征函数和权重系数被应用于许多不同的辖域上。这类比于贝叶斯网中的模板模型。这部分介绍 Shared Features in Log Linear Models。

7.1 应用举例

伊辛模型

每一对相邻节点上特征都选取为 $f(x_i,x_j)=x_ix_j$ ，权重都设为的 $\omega$ 。权重体现了相邻原子间相互影响的强弱（extent of influence of two adjacent atmos on the each other）。

自然语言处理

每一对词汇标签 $y_j$ 和真实词语 $x_i$ （蓝边）组成的辖域上定义相同的特征函数 $f_k$ ，比如都是 $f_k(y_i,x_i)=\textbf{1}(y_i=B−PER,x_i\ is\ capitalized)$ ，且权重均为 $\omega_k$ ；
　　每一对相邻标签（红边）组成的辖域上也定义相同的特征函数 $f_m$ ，权重都是 $\omega_m$ 。
这里写图片描述

图像分割：每一对相邻超级像素之间选取相同的距离函数，相同的权重。

这里写图片描述

7.2 选取与使用方法

　　Step 1：选定准备反复使用的一组（或一个）特征函数 $f_k$ ；
　　Step 2：为每一个 $f_k$ 指定一组辖域 $Scopes[f_k]$ ；
　　Step 3：为每一个 $f_k$ 分配唯一权重 $\omega_k$ ；
　　Step 4：对每一个 $D_k\in Scopes[f_k]$ ，给模型的能量函数中加入 $\omega_kf_k(D_k)$ 这一项。

7.3 总结

这里的 Shared features 类似于贝叶斯网的模板模型中的模板，它为 MNs 提供一个可以应用与多个 MNs 中的简单的模板。比如不同的图像，不同的句子。
可选取多个共同特征，每个特征都可应用于一组辖域 $Scopes[f_k]$ 。比如图中所有相邻的相邻像素，所有成对原子，句中所有的词。

注：实际应用中，常将同一辖域上提取出的多个特征函数做以聚类来实现降维。

　　至此本文详细介绍了 MNs 结构，模型和应用。回顾博文重点请点击这里返回开篇摘要。
　　

王飞跃, 韩素青译. 概率图模型 - 原理与技术, 清华大学出版社, 2015: page 108. ↩
概率图模型笔记(6)——Markov Network Fundamentals. ↩
概率图模型笔记(6)——Markov Network Fundamentals. ↩