Bayesian Networks ——Stanford CS228

版权声明:来自原创,转载需注明来源 https://blog.csdn.net/Formlsl/article/details/82053318

Bayesian Networks

  • 学习一个有效广泛的技术用来参数化概率分布仅仅用少量的参数。
  • 通过有向无环图(DAGs)来描述因果模型。
  • 研究模型假设和DAG结构之间的关联;不仅模型假设要很清楚,而且应该设计更有效的推断算法。
    在下一节,将研究无向图,也被称之为Markov random fields。

基于BN的概率模型

有向图模型是使用简洁的参数的概率分布家族。

链式法则:
这里写图片描述
链式法则一般依赖的较多的其他变量。

所以一个简洁的贝叶斯网络既是一个分布仅仅依赖几个数量的祖先变量$x_{Ai}$:这里写图片描述

当变量是离散的,假如每个变量能取d个值,一个共k个祖先,所以N个变量有$O(nd^{k+1})$参数。

图表示

分布被表示有向无环图,图的顶点代表变量$x_{i}$,边代表依赖关系,记$x_{A_{i}}$为$x_{i}$的祖先。举个例子:g是学生的成绩,d是成绩的困难程度,i是学生的智商,s是SAT分数,l取决于教课老师的水平,除了g之外都是二值变量,g有三个变量值。那么联合分布为
这里写图片描述

这里写图片描述

这个图比较明显的显示数据的产生过程。

形式化定义-formal definition

贝叶斯网络是有向无环G=(V,E)

  • 随机变量x_{i}为图的顶点
  • 对于每个顶点条件概率分布(CPD),依赖于他们的父节点。

所以贝叶斯网络就是用来定义一个概率分布。

贝叶斯网络的依赖性(The dependencies of a Bayes net)

我们已经知道贝叶斯网络是用来表示一个分布的,用形式模型来表示非依赖。那种贝叶斯网络结构能够表达出来非独立性?记I(p)表示的事联合分布的变量是否独立。即如果p(x,y)=p(x)p(y),然后我们有$x \bot y\in I(p)$

基于有向图独立性描述(independencies decribed by directed graphs)

三种结构描述图的独立性。

  • 公共父节点。 结构一A<-B->C, 如果B是被观察节点,$(A \bot C)|B$;如果B不是观察节点,则$Anot \bot B$,因为A和C是和B有关联的。
  • 层级状。结构二A->B->C,如果B是被观察节点,$(A \bot C)|B$;同样果B不是观察节点,则$Anot \bot B$,因为A和C是和B有关联的。
  • V型。结构A->C<-B.如果C不是被观察节点,$(A \bot B)$;如果C是观察节点,则$Anot \bot B|C$,因为A和B是和C有关联的。

我们接下来将扩展这三种结构通过递归的。

当变量O被观测,如果集合Q,W,O是没有链接的通过active path,则说明QW是d分的(d-separated). active path,满足下面一个条件:

  • x<-Y<-Z,Y不是被观测变量,$Y\notin O$;
  • x->Y->Z,Y不是被观测变量,$Y\notin O$;
  • x<-Y->Z,Y不是被观测变量,$Y\notin O$;
  • x->U<-Z,Y是所有节点的子孙,并且是观测变量;
    这里写图片描述
    d-separation 用处在于描述网络的依赖。$I(G)=X\bot Y|Z:X,Y$是可d-分在Z条件下}
定理:如果p是G的因子,然后$I(G)\subseteq I(p)$,在这种情况下,我们说G是I-map对于p.

换句话说,就是所有的独立性编码在G上:如果变量是d-可分,那么这些是独立的。但是,一个分布能通过G因式分解,但是独立性可能存在不能完全被G捕捉。举个例子,p(x,y)=p(x)p(y),然后这个分布也能表示为y->x。由于我们常常表示p(x,y)=p(x|y)p(y),CPD p(x|y)。所以我们重构一个图来搭配去除没有必要的边。

有向图表示的力量(the representational power of directed graphs)

还是哪个问题有向图能表示所有独立关系?在大多关系下,给出分布p,是否能构成有向图I(G)=I(p)?

首先,很容易构建一个$I(G)\subseteqI(p)$.一个全链接的DAG G是I-Map,因为I(G)=$\emptyset$.

最重要的是我们可以发现一个最小的I-map G。很容易达到,先构建一个全链接的G,然后去除一些边,直到G不是一个I-map. (优化方法)。然而,我们真正感兴趣的是p是否存在一个完美的G能够达到I(p)=I(G).

如果I(G1)=I(G2),则G1和G2是I-equivalent。

相同的骨架的意思是将箭头去掉,是否能得到相同的无向图。层级明显是骨架相同。a,b,c是编码相同独立。但是c,d骨架不同。
这里写图片描述
定理:如果G和G1有相同的骨架和相同的V型结构,然后有I(G)=I(G1).

猜你喜欢

转载自blog.csdn.net/Formlsl/article/details/82053318