Bayesian Networks

学习一个有效广泛的技术用来参数化概率分布仅仅用少量的参数。
通过有向无环图(ＤＡＧs)来描述因果模型。
研究模型假设和ＤＡＧ结构之间的关联；不仅模型假设要很清楚，而且应该设计更有效的推断算法。
在下一节，将研究无向图，也被称之为Markov random fields。

基于ＢＮ的概率模型

有向图模型是使用简洁的参数的概率分布家族。

链式法则：
这里写图片描述
链式法则一般依赖的较多的其他变量。

所以一个简洁的贝叶斯网络既是一个分布仅仅依赖几个数量的祖先变量$x_{Ai}$: 这里写图片描述

当变量是离散的，假如每个变量能取d个值，一个共ｋ个祖先，所以Ｎ个变量有$O(nd^{k+1})$参数。

图表示

分布被表示有向无环图，图的顶点代表变量$x_{i}$，边代表依赖关系,记$x_{A_{i}}$为$x_{i}$的祖先。举个例子：ｇ是学生的成绩，d是成绩的困难程度，i是学生的智商，ｓ是ＳＡＴ分数，ｌ取决于教课老师的水平，除了ｇ之外都是二值变量，ｇ有三个变量值。那么联合分布为
这里写图片描述

这里写图片描述

这个图比较明显的显示数据的产生过程。

形式化定义－ｆormal definition

贝叶斯网络是有向无环Ｇ=(V,E)

随机变量x_{i}为图的顶点
对于每个顶点条件概率分布(ＣPD)，依赖于他们的父节点。

所以贝叶斯网络就是用来定义一个概率分布。

贝叶斯网络的依赖性（The dependencies of a Bayes net）

我们已经知道贝叶斯网络是用来表示一个分布的，用形式模型来表示非依赖。那种贝叶斯网络结构能够表达出来非独立性？记I(p)表示的事联合分布的变量是否独立。即如果p(x,y)=p(x)p(y),然后我们有$x \bot y\in I(p)$

基于有向图独立性描述（independencies decribed by directed graphs）

三种结构描述图的独立性。

公共父节点。　结构一A<-Ｂ->C, 如果Ｂ是被观察节点，$(A \bot C)|B$;如果B不是观察节点，则$Ａnot \bot B$，因为Ａ和Ｃ是和Ｂ有关联的。
层级状。结构二Ａ->B->C,如果Ｂ是被观察节点，$(A \bot C)|B$;同样果B不是观察节点，则$Ａnot \bot B$，因为Ａ和Ｃ是和Ｂ有关联的。
Ｖ型。结构Ａ->C<-B.如果C不是被观察节点，$(A \bot B)$;如果C是观察节点，则$Ａnot \bot B|C$，因为Ａ和B是和C有关联的。

我们接下来将扩展这三种结构通过递归的。

当变量O被观测，如果集合Ｑ，W，O是没有链接的通过active path,则说明ＱＷ是d分的（d-separated).　active path,满足下面一个条件：

x<-Y<-Z，Ｙ不是被观测变量，$Y\notin O$;
x->Y->Z,Ｙ不是被观测变量，$Y\notin O$;
x<-Y->Z,Ｙ不是被观测变量，$Y\notin O$;
x->U<-Z,Y是所有节点的子孙，并且是观测变量;

d-separation 用处在于描述网络的依赖。$Ｉ(G)=X\bot Y|Z:X,Y$是可ｄ-分在Ｚ条件下}

定理：如果p是Ｇ的因子，然后$I(G)\subseteq I(p)$，在这种情况下，我们说Ｇ是Ｉ-map对于ｐ.

换句话说，就是所有的独立性编码在G上：如果变量是d-可分，那么这些是独立的。但是，一个分布能通过Ｇ因式分解，但是独立性可能存在不能完全被Ｇ捕捉。举个例子，p(x,y)=p(x)p(y),然后这个分布也能表示为y->x。由于我们常常表示p(x,y)=p(x|y)p(y),CPD p(x|y)。所以我们重构一个图来搭配去除没有必要的边。

有向图表示的力量（the representational power of directed graphs）

还是哪个问题有向图能表示所有独立关系？在大多关系下，给出分布ｐ,是否能构成有向图Ｉ(G)=I(p)？

首先，很容易构建一个$Ｉ(G)\subseteqＩ(p)$.一个全链接的ＤＡG Ｇ是I-Map,因为Ｉ(G)=$\emptyset$.

最重要的是我们可以发现一个最小的Ｉ-map G。很容易达到，先构建一个全链接的Ｇ,然后去除一些边，直到Ｇ不是一个Ｉ-map. (优化方法)。然而，我们真正感兴趣的是ｐ是否存在一个完美的Ｇ能够达到Ｉ(p)=I(G).

如果Ｉ(G1)=I(G2)，则Ｇ1和Ｇ２是Ｉ-equivalent。

相同的骨架的意思是将箭头去掉，是否能得到相同的无向图。层级明显是骨架相同。a,b,c是编码相同独立。但是c,d骨架不同。
这里写图片描述
定理：如果Ｇ和Ｇ１有相同的骨架和相同的Ｖ型结构，然后有Ｉ(G)=I(G1).