上一章我们介绍了潜在结果模型，这一章我们尝试从图的角度理解因果，大家都有图论基础，我就不多赘述图的基本概念了，在因果图里我们主要研究DAG（directed acyclic graph，有向无环图），如图1。

图1. 一个DAG例子

Bayesian Networks

贝叶斯网络，一个概率图模型，因果图就是由此内生而来，因此先介绍它，贝叶斯网络的职责是将概率和图模型结合起来，使得我们能直接利用图表示概率关系，而想用图模型来表示概率关系，需要先提出两个假设。

首先，我们从概率建模出发，如果我们相对一组数据的分布 $P(x_1,x_2,...,x_n)$ 建模，则根据条件概率的链式法则，我们可以将该分布分解为：

$P(x_1,x_2,...,x_n)=P(x_1)\prod_iP(x_i|x_{i-1},...,x_1)$

而如果给定图1，我们想求图1中的分布关系，我们就需要先定义图1对应的分布情况。

因此先提出一个最基础的假设：DAG中相邻的点是依赖关系。

利用这个假设，可以推出 $P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3,x_2,x_1)$ 。但大家还记得概率论的话就会知道，这样没加一个变量，参数就会指数级上升，如图2所示。因此光是一个依赖假设还是不够，我们需要引入独立假设，减少不必要的计算量。

图2. 链式法则求解

Local Markov assumption

局部马尔科夫假设。

为了避免指数爆炸的情况，我们想如果能让每个节点只依赖于其父节点就好了，这就是局部马尔科夫假设：给定一个DAG图，点X独立于其所有的非子孙节点。

再基于该假设，我们可以进一步将图1的概率分布分解为 $P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3)$ ，我们称之为Bayesian network factorization（贝叶斯网络分解）,即给定一个概率分布P和DAG G，如果 $P(x_1,...x_n)=\prod_iP(x_i|pa_i)$ ，则P可以根据G进行分解，局部马尔科夫假设是这种贝叶斯网络分解形式的充要条件。

Minimality assumption

整合Local Markov assumption和”依赖“假设，我们便得到了极小假设：

给定一个DAG图，点X独立于其所有的非子孙节点。
DAG中相邻的点是依赖关系

我们称关于G且满足极小假设的P是马尔科夫的。

这就是贝叶斯网络的假设，下面我们看看因果图模型。

Causal graph

因果图。

首先，定义因果关系：如果变量Y响应于变量X的变化，则X是变量Y的因。

根据这个定义，因果图的第一个假设，Causal Edges Assumption（因果边假设）：在一个有向图中，每一个父亲节点都是孩子节点的因。

这样因果图就基于两个假设：

Minimality assumption
Causal Edges Assumption

仅仅知道这两个假设理论上就可以求出所有的因果关系，但在实践中，当因果关系复杂起来就很难分析，因此我们需要总结一些基本的block。

两个节点之间的关系

图3是只考虑两个节点时的所有关系情况，（a)表示 $x_1$ 和 $x_2$ 没有边，其表示的概率关系为 $P(x_1, x_2)=P(x_1)P(x_2)$ ， $x_1$ 和 $x_1$ 相互独立（Local Markov assumption）;（b)表示 $x_1$ 和 $x_2$ 之间有因果关系， $x_1$ 是 $x_2$ 的因（Causal Edges Assumption）,证明如下,我们对a和b的概率图进行贝叶斯分解得到：
（a): $P(x_1, x_2)=P(x_1)P(x_2)$

（b): $P(x_1,x_2)=P(x_1)P(x_2|x_1)$

图3. 两节点的关系只有两个点的关系还是很好理解的，下面让我们看看三个点的关系。

三个节点之间的关系

如图4，当考虑三个节点时共有三种情况，我们首先分析chain和fork。

图4. 三节点的关系

chains and forks

chains（链式结构）和 forks （分叉结构）拥有相同的依赖关系（第10章会详细讨论），其依赖关系的传递如图4红线所示。

当我们同时condition on x2, chains 和 forks 还拥有相同的独立关系，x1和x3的关联被x2 blocked（阻断了），即 $x_1 {\perp \!\!\! \perp} x_3|x_2$ ，如图5所示。

图5. x2条件下的chain和fork

从概率角度分析，chain图得到：

$P(x_1,x_2,x_3)=P(x_1)P(x_2|x_1)P(x_3|x_2)$ （Bayesian network factorization）,

两边同时除以 $P(x_2)$ ： $\frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_1)P(x_2|x_1)P(x_3|x_2)}{P(x_2)}$

$P(x_1,x_3|x_2)=\frac{P(x_1)P(x_2,x_1)P(x_3|x_2)}{P(x_2)P(x_1)}=\frac{P(x_2,x_1)P(x_3|x_2)}{P(x_2)}=P(x_1|x_2)P(x_3|x_2)$ ，即 $x_2$ 条件下， $x_1$ 条件独立于 $x_3$ 。

fork图得到 $P(x_1,x_2,x_3)=P(x_2)P(x_1|x_2)P(x_3|x_2)$ （Bayesian network factorization）

两边同时除以 $P(x_2)$ ： $\frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_2)P(x_1|x_2)P(x_3|x_2)}{P(x_2)}$

$P(x_1,x_3|x_2)=P(x_1|x_2)P(x_3|x_2)$ ，即 $x_2$ 条件下， $x_1$ 条件独立于 $x_3$ 。

collider

图6. collider的两种情况

如图6a，collider（对撞结构）与前两种结构不同，collider中x1和x3没有关联关系，x1和x3的关联被x2 blocked了，证明如下：

$P(x_1,x_3)=\sum_{x_2}P(x_1,x_2,x_3)=\sum_{x_2}P(x_1)P(x_3)P(x_2|x_1,x_3)=P(x_1)P(x_3)\sum_{x_2}P(x_2|x_1,x_3)=P(x_1)P(x_3)$

如图6b，而当在x2条件下时，x1和x3反而建立起一种虚假的关联，x1和x3的关联被x2unblocked，证明：

$P(x_1,x_2,x_3)=P(x_1)P(x_3)P(x_2|x_1,x_3)$ （Bayesian network factorization）,

两边同时除以 $P(x_2)$ ： $P(x_1,x_3|x_2)=P(x_1)P(x_3)\frac{P(x_2|x_1,x_3)}{P(x_2)}$ ，可见在x2条件下，x1与x3不满足条件独立。

最后我们还可以根据collider的性质延伸出一种情况，如图7所示，如果我们condition on x2的子孙，也会产生虚假的关联，这个关联流向为x4->x2->(x1,x3)。

图7. collider的子孙

D-separation

现在我们对上面谈到的情况对点之间的关系进行总结，将几个点之间的关系拓展到整个图。

首先我们正式定义blocked概念。对于单条路径，如果：

路径中存在chain …->W->…或者fork…<-W->…结构， $W\in Z$
路径中存在collider …->W<-…， $\notin Z$ 且W的子孙 $de(W)\notin Z$

则称X和Y之间的这条路径被条件集Z blocked（阻断），条件集Z可以是空集。与之相对，unblocked路径便是不满足blocked条件的路径。

然后基于blocked，我们定义d-separation，如果：

两个顶点集合X和Y之间的路径全部被Z blocked，则称X和Y被Z d-separation。 如果二者之间存在unblocked路径，则称X和Y是d-connected。

再扩展到整个图的关系，首先我们定义一些符号：如果在Z条件下，X和Y在图G中是d-separation的，则 ${\perp \!\!\! \perp}_G Y|Z$ ；如果在Z条件下，X和Y在分布P中是条件独立的，则 ${\perp \!\!\! \perp}_P Y|Z$ 。

有了这些符号，我们定义global Markov assumption：

给定P关于G是马尔科夫的（满足local Markov assumption），如果在Z条件下，X和Y在G中是 d-separation 的，则在Z条件下，X和Y在分布P中是条件独立的，即：

${\perp \!\!\! \perp}_G Y|Z =>X {\perp \!\!\! \perp}_P Y|Z$

local Markov assumption，global Markov assumption 和 Bayesian network factorization是不同角度的理解，他们三者是完全等价的，可以将这三者统称为Markov assumption，或者说P关于G是马尔科夫的。

图8. 因果关联这一章我们详细探讨了因果图中点与点之间关系，并学习了如何分辨关系以及使其独立的方法。但在因果推理中，我们希望得到的是因果关系，而不是独立关系，这需要一些方法能够抛开非因果关联，只留下因果关联，如图8所示，只考虑蓝色线。然后计算因果效应。后面我们会进一步学习因果模型，看他是如何解决这些问题的。

Reference

Introduction to Causal Inference

因果3-因果图