概率图模型读书笔记（一）

0. 前言

之前挖的坑还没有填完，又开始挖新坑了。这次是关于概率图模型的读书笔记。先说一下大致规划，读书笔记总共分三部分，分别是概率图的表示、推理与学习。之前准备单独列一章应用的，不过考虑到应用这部分资料应该是最多的，就干脆偷个懒，把常见模型的相关知识分布到三个章节中提一下算了。

这系列笔记主要是在读Koller的经典教材《概率图模型》[1]时做的，还有部分内容参考了其他一些书籍或文章。个人非常推荐这本书，把概率图的来龙去脉都讲的很清楚。不过正因为如此，有些人批评这本书太过繁杂，把几十页的内容写了一千多页，可能各人看书的目的不同吧。。。不管怎么说我还是觉得该书绝对配得上五星好评。

另外，这本书有中文翻译版，不过质量一般，像是是人肉+机器翻译的。有些挺好，但是有些完全是瞎翻译，所以建议不要完全依赖中文版，还是弄一份英文的对照着看（网上很多下载）。

1. 介绍

概率图模型是一种用图来表示概率分布中各变量独立性的理论，其目的是利用这些独立性来简化概率分布的表示。

假设我们有一个概率分布\(P(\mathbf{X}_{1},\mathbf{X}_{2}, ..., \mathbf{X}_{N})\)，其中\(\mathbf{X}_{i}\)为离散随机变量，每个都有\(M\)个取值，那么我们可以用一张表来参数化概率分布，该表共有\(M^{N}-1\)个值，分别对应不同随机变量\(\mathbf{X}_{i}\)的各个取值组合，其中减一是因为概率需要满足归一化条件。可见，除非变量数\(N\)非常小，否则我们很难处理具有这么多参数的概率分布。

如果我们知道各个随机变量\(\mathbf{X}_{i}\)之间是相互独立的，那么就可以把联合概率分布写成各个随机变量分布乘积的形式：

\(P(\mathbf{X}_{1},\mathbf{X}_{2}, ..., \mathbf{X}_{N})=\prod_{i=1}^{N}P(\mathbf{X}_{i})\)

这时我们表示联合概率分布的参数数量为\(N*(M-1)\)。

如果随机变量构成一阶马尔科夫链，那么联合概率分布为:

\(P(\mathbf{X}_{1},\mathbf{X}_{2}, ..., \mathbf{X}_{N})=P(\mathbf{X}_{1})\prod_{i=2}^{N}P(\mathbf{X}_{i}|\mathbf{X}_{i-1})\)

这时我们表示联合概率分布的参数数量为\(M-1+(N-1)(M-1)M\)（\(P(\mathbf{X}_{1})\)引入\(M-1\)个参数，后面\(N-1\)个表达式分别引入\(M(M-1)\)个参数）。

可见，如果随机变量之间具有某些独立性，就有可能利用这些独立性简化联合分布的表达式，从而减少所需参数。概率图模型的作用就是用图的形式来编码联合概率分布的独立性条件，具体的表示方式为：

用图中的节点表示随机变量（或者随机变量的某种集合/因子）
用边表示两个节点具有（直接）关联关系

如果图模型中的边都是有向边，这种模型就叫有向图模型，又称贝叶斯网；如果图模型中的边都是无向边，这种模型就叫无向图模型，又称马尔科夫网；如果两者都有，那么就称作混合模型。

概率图模型定义了一套通用的描述随机变量联合分布的框架，我们熟知的很多模型都可以套用到概率图模型中，如朴素贝叶斯、高斯混合模型、隐马尔科夫模型、条件随机场......

2 概率图的表示

注：这部分可以参考文献[1]中的相关章节，讲述的非常细致明了。这里只做概要性描述。

概括地说，我们研究有向图/无向图的表示，主要目的就是想研究怎么样用图模型来编码联合概率分布中的独立性，以及这种编码是否是可靠且完备的（可靠意为图中的所有独立性在联合分布中都成立，完备表示联合分布中的独立性全部蕴含在图中）。接下来我们会看到在一般情况下，图模型不能保证是完备的，但是在实际应用中遇到的问题基本都是可以保证可靠性和完备性的。

具体过程大概分为下面三个步骤：

首先给出图编码独立性的形式（比如对于有向图，a->b意味着给出a时b与其所有非后代节点条件独立），并据此得出一张图中蕴含的的独立性条件
然后利用图来定义一个联合概率分布的表示形式，即因子分解形式
最后利用因子分解形式连接起联合概率分布的独立性与图中蕴含的独立性，得到类似“如果联合概率分布可以表示成某张图的因子分解形式，那么该分布的独立性就编码在图中”的结论

我们先定义条件独立性集合的表示符号：

\(I(P)\)表示在联合概率分布\(P\)中成立的条件独立性的集合，其中条件独立性就是形如\(\mathbf{X}\perp\mathbf{Y}|\mathbf{Z}\)的关系

2.1 有向图

如上节所述，有向图模型又称贝叶斯网，其表示形式为有向无环图，该图蕴含了节点(随机变量)之间的某些独立性。

2.1.1 图与分布的表示
2.1.1.1 独立性编码方式

有向图编码独立性的方式非常直观。给定节点\(\mathbf{X}\)，定义\(NonDes(\mathbf{X})和Pa(\mathbf{X})\)分别为其非后代节点和父节点，那么有向图中的独立性可以表示为\(\mathbf{X}\perp NonDes(\mathbf{X})|Pa(\mathbf{X})\)，即给定了节点的父节点之后，该节点与其他所有非后代节点条件独立。这种独立性我们给它一个名称，叫“局部独立性”，用\(I_{l}(G)\)表示。
令\(K\)表示任意图，对于任意独立性集合\(I\)如果\(I_{l}(K)\in I\)，那么称\(K\)为\(I\)的I-map。对于图\(G\)和概率分布\(P\)，如果\(G\)是\(I(P)\)的I-map，那么简称\(G\)是\(P\)的一个I-map，其含义是 *\(I_{l}(G)\)\in \(I(P)\)* ，即\(G\)的局部独立性在\(P\)中都成立。

2.1.1.2 因子分解形式

令\(G\)为定义在随机变量集合\(\mathbf{X}_{i=1~N}\)上的有向图，我们可以定义图的因子分解形式的概率分布为\(P(\mathbf{X}_{1},\mathbf{X}_{2}, ..., \mathbf{X}_{N})=\prod_{i=1}^{N}P(\mathbf{X}_{i}|Pa(\mathbf{X}_{i}))\)。如果某概率分布\(P(\mathbf{X}_{1},\mathbf{X}_{2}, ..., \mathbf{X}_{N})\)可以表示成上述因子分解的形式，则称该概率分布\(P\)关于图\(G\)因子分解。

2.1.1.3 图与分布独立性的关联

可以证明， *如果\(G\)是\(P\)的一个I-map，那么\(P\)关于图\(G\)因式分解，反之同样成立* 。但是要留意的是\(G\)是\(P\)的一个I-map只保证\(I(G)\in I(P)\)，反之并不成立（亦即可靠性成立，完备性不一定成立）。比如完全图是所有分布的I-map，因为它压根不包含任何独立性条件。所以一般情况下，我们希望能找到所谓的最小I-map，即在图中移除任意一条边（增加独立性）都导致其不再是I-map的图。

2.1.1.4 d-分离与全局独立性

给定\(P\)的一个I-map\(G\)，我们可以很容易根据局部独立性得到\(P\)的独立性\(I_{l}(G)\)，但是如何根据图来判断任意\(\mathbf{X}\perp\mathbf{Y}|\mathbf{Z}\)，其中\(\mathbf{X}\)、\(\mathbf{Y}\)、\(\mathbf{Z}\)表示节点集合，是否成立呢？这个问题本质上是无法利用贝叶斯网得到的，原因是有些分布的独立性无法完全用贝叶斯网表示。但是大部分情况下都可以通过所谓的d-分离性质和d-分离算法回答以上问题。关于这部分内容，可以参考文献【1】，这里不再赘述。

由d-分离可以导出图\(G\)的全局独立性，即d-分离定义的独立性集合。之所以称之为全局独立性是因为这些独立性保证在 *所有* 关于图\(G\)因式分解的概率分布上都成立。不过后面可以发现其实局部独立性和全局独立性是等价的，它们只是从不同角度对有向图的解释。

2.1.1.5 从分布到图

根据前面的分析可知，如果我们知道了概率分布的图表示，就可以用图来直观地表示分布的独立性，那么现在摆在面前的问题就是，如果从分布来构造表示分布的图\(G\)。显然如果我们只需要找到I-map的话，那么完全图就是平凡解。不过众所周知平凡解的意义一般只存在于定理证明中，所以我们一般限制找到的图为分布的最小I-map，或者更理想化的P-map。
参考文献[1]的3.4节中给出了比较详细的讨论，也给出了计算最小I-map的伪代码，这里就不再赘述了。

2.1.2 独立性、因子分解的总结

\(I_{l}(G)\)与\(I(G)\)等价

　　　　即全局独立性和局部独立性等价

分布\(P\)关于图\(G\)因子分解与图\(G\)是分布\(P\)的I-map等价

　　　　注意“图\(G\)是分布\(P\)的I-map等价”意为图\(G\)中的所有独立性在分布\(P\)中都成立，即\(I(G)\in I(P)\)

存在有些概率分布\(P\)，无法找到图\(G\)令\(I(G)=I(P)\)成立

　　　　这说明d-分离无法描述所有可能的独立性，即贝叶斯网不能保证是完备的。

对于几乎所有在图\(G\)上因式分解的分布\(P\)，都有\(I(G)=I(P)\)成立，不成立的那些分布构成的集合的测度为0

　　　　这个结论可以直观的理解为满足某个条件独立性的分布集合是零测集，即满足条件独立性的集合本来就非常少。
　　　　该结论的重要性在于：在几乎所有情况下，如果分布\(P\)在图\(G\)上因子分解，那么我们可以通过观察图来得出\(P\)的所有独立性，也可以通过图来判断某个独立性假设是否存在

2.2 无向图

这部分内容如果是学过统计物理的应该可以看到很多熟悉的身影，如吉布斯分布，配分函数，能量函数等等。
对于有向图，变量之间的相关性是有向的，从局部独立性和联合分布的因式分解形式就可以看出图中父节点和子节点的关系不是对称的。但是很多情况下变量之间无法指定这种有向的相关性。为了解决这个问题，我们引入无向图模型，又称马尔科夫网。

和有向图一样，无向图模型也是用节点表示随机变量，边表示随机变量之间的相关性，不过由于边是无向的，所以变量之间的相关性可以认为是对称的，而不像有向图那样是条件概率的关系。这也就导致了向图模型在参数化表示的时候不像有向图那么自然。

2.2.1 图与分布的表示

2.2.1.1 独立性编码方式

首先我们给出无向图中的基本独立性编码形式。直观上来看，由于图是无向的，所以变量之间的影响可以沿着边双向“流动”，但是如果我们知道了某些中间节点的值之后，这种流动会被阻碍。因此可以定义有效路径和分离的概念：

给定无向图\(H\)，\(\mathbf{X}_{1}-\mathbf{X}_{2}-...-\mathbf{X}_{n}\)是其中一条路径，观测集\(\mathbf{Z}\)是图中部分节点的观测值，如果\(\mathbf{X}_{1~n}\)都不在\(\mathbf{Z}\)中，那么在给定\(\mathbf{Z}\)时\(\mathbf{X}_{1}-\mathbf{X}_{2}-...-\mathbf{X}_{n}\)是一条有效路径

　　　　直观上说，就是给定\(\mathbf{Z}\)时路径还能走得通

如果给定\(\mathbf{Z}\)时，任意节点集\(\mathbf{X}\)和\(\mathbf{Y}\)之间没有有效路径，那么就说\(\mathbf{X}\)和\(\mathbf{Y}\)被\(\mathbf{Z}\)分离，记为\(Sep_{\mathbf{H}}(X,Y|Z)\)

基于分离的定义，可给出图\(H\)编码的独立性\(I(H)={(\mathbf{X}\perp \mathbf{Y}|\mathbf{Z}:Sep_{\mathbf{H}}(X,Y|Z))}\)，称之为“全局独立性”。

2.2.1.2 因子分解形式

无向图的因子分解形式和有向图比起来没有那么直观，其表示联合概率分布的核心是所谓的“因子”，即以若干个随机变量的集合为自变量的（任意形式）的函数。无向图模型的参数表示就是若干个这种因子的乘积然后归一化，比较简单粗暴。这种因子分解的形式就是著名的“吉布斯分布”：

如果概率分布\(P_{\Phi}\)可以表示成如下形式：

\(P_{\Phi}(\mathbf{X}_{1},\mathbf{X}_{2}, ..., \mathbf{X}_{N})=\frac{1}{Z}\prod_{i=1}^{N}\phi_{i}(\mathbf{D}_{i})\)

其中\(\mathbf{D}_{i}\)表示随机变量的集合，\(\phi_{i}(\mathbf{D}_{i})\)表示因子，\(Z\)为归一化常数，那么该分布就称作吉布斯分布，\(Z\)称作配分函数。

现在将无向图和概率分布的因子分解形式关联起来：假设我们有一张图\(H\)，其节点为随机变量集合\(\mathbf{X}_{1},\mathbf{X}_{2},...\mathbf{X}_{N}\)，如果每个\(\mathbf{D}_{i}\)都是图\(H\)的完备子图（任意两个节点之间都有边相连），那么则称具有上面吉布斯分布表示的概率分布关于图\(H\)因子分解。

注意由于因子选择方式的不同，同一个图对应的因子分解形式也有很多种不同，当然对应的参数数量也会不同。比如一个很常见的因子选择方式就是所谓的pairwise马尔科夫网，即选择一条边的两个节点或孤立节点作为因子的定义域。由于一条边的两个节点肯定组成完备子图，所以这种选择是成立的。如果想要减少因子数量，也可以用所谓的“最大团”定义每个因子的定义域

2.2.1.3 图与分布独立性的关联

无向图的因子分解形式和独立性也有类似的结论，即可靠性成立，完备性不成立。不过如果概率分布是正分布的情况下，根据Hammersley-Clifford定理，可靠性和完备性是同时成立的，所以在大部分情况下我们还是可以放心的使用无向图来编码概率分布的独立性。

2.2.1.4 其他两种独立性

无向图除了全局独立性之外，还有另外两种“局部的”独立性：

成对独立性

　　　　即两个不直接相连的节点在给定其他所有节点时是独立的

马尔科夫毯独立性

　　　　即某节点在给定其所有邻域节点时与其他节点是独立的，节点的所有邻域节点称作“马尔科夫毯”，该毯把节点整个包裹起来，从而与外部节点独立。

可以证明，以上三种独立性在分布P是正分布时是等价的，如果不是正分布，那么成对独立性最弱，马尔科夫毯独立性次之，最强的是全局独立性。

2.2.1.5 从分布到图

寻找正分布的无向图表示可以利用上面描述的图的成对独立性和马尔科夫毯独立性来表示，具体参见文献[1]的4.3.3节。

2.2.2 其他

关于无向图，还有一些其他的表示形式，如因子图、对数线性模型等

3 未完待续

下一篇介绍概率图的推理算法，即给定概率图的联合分布，如何又快又准的计算某些特定的概率。大伙耳熟能详的forward-backward算法，Viterbi算法，Kalman滤波都属于该范畴。如果有时间的话，还会介绍一些变分推理和基于粒子的推理算法（好在已经将Monte Carlo的坑填上了）。