花书+吴恩达深度学习(二三)结构化概率模型(贝叶斯网络、马尔可夫网络)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhq9695/article/details/86594042

如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

花书+吴恩达深度学习(二三)结构化概率模型(贝叶斯网络、马尔可夫网络)
花书+吴恩达深度学习(二四)蒙特卡罗方法(重要采样,MCMC)
花书+吴恩达深度学习(二五)直面配分函数(CD, SML, SM, RM, NCE)
花书+吴恩达深度学习(二六)近似推断(EM, 变分推断)

0. 前言

结构化概率模型使用图来描述随机变量之间的直接相互作用,从而描述概率分布

每一个节点代表一个随机变量,每一条边代表一个直接相互作用。

结构化概率模型的优点是,它们能够显著降低表示概率分布、学习和推断的成本

有向模型和无向模型的区别是:有向模型通过从起始点的概率分布直接定义,无向模型通过 ϕ \phi 函数转换为概率分布而定义

1. 有向模型

有向图模型(directed graphical model)又被称为信念网络(belief network)或贝叶斯网络(Bayesian network)。

所有边都是有方向的,箭头所指的方向表示随机变量的概率分布是由其他随机变量决定的。

概率分布表示为:
p ( x ) = i p ( x i P a g ( x i ) ) p(x)=\prod_{i}p(x_i\mid Pag(x_i))
其中, P a g ( x i ) Pag(x_i) 表示 x i x_i 的所有父节点。

扫描二维码关注公众号,回复: 5121376 查看本文章

例如下图所示(图源:深度学习):

t 1 t_1 依赖于 t 0 t_0 t 2 t_2 直接依赖于 t 1 t_1 ,间接依赖于 t 0 t_0 p ( t 0 , t 1 , t 2 ) = p ( t 0 ) p ( t 1 t 0 ) p ( t 2 t 1 ) p(t_0,t_1,t_2)=p(t_0)p(t_1\mid t_0)p(t_2\mid t_1)

只要图中的每个变量都只有少量的父节点,那么分布就可以用较少的参数表示。

2. 无向模型

无向模型(undirected model)又被称为马尔可夫随机场(Markov random field)或马尔可夫网络(Markov network)。

无向模型适用于当变量间相互作用并没有本质性的指向,或者明确的双向作用时。

无向图中每一个团(节点的子集) C C 都有一个因子(团势能) ϕ ( C ) \phi(C) 未归一化概率分布
p ~ ( x ) = C g ϕ ( C ) \tilde{p}(x)=\prod_{C\in g}\phi(C)
归一化概率分布
p ( x ) = 1 Z p ~ ( x ) Z = p ~ ( x ) d x p(x)=\frac{1}{Z}\tilde{p}(x)\\ Z=\int \tilde{p}(x)dx
当函数 ϕ \phi 固定时,可以把 Z Z 当成一个常数,归一化常数 Z Z 被称为配分函数。

无向模型中许多理论都依赖于 x ,   p ~ ( x ) > 0 \forall x,\ \tilde{p}(x)>0

满足条件的简单方式是基于能量的模型 EBM(Energy-based model):
p ~ ( x ) = exp ( E ( x ) ) \tilde{p}(x)=\exp(-E(x))
其中, E ( x ) E(x) 被称作是能量函数。

基于能量的模型中的概率可以无限趋近于0但是永远达不到0.

许多对概率模型的操作不计算 p m o d e l ( x ) p_{model}(x) ,而是 log p ~ m o d e l ( x ) \log \tilde{p}_{model}(x) ,该量的负数称为自由能:
F ( x ) = log h exp ( E ( x , h ) ) F(x)=-\log\sum_{h}\exp(-E(x,h))

3. 因子图

因子图(factor graph)是从无向模型中抽样的另一种方法,可以解决无向模型语法中的模糊性。

通过显式的表示每一个 ϕ \phi 函数的作用域,如下图所示(图源:深度学习):

4. 分离和d-分离

图中隐含的条件独立性称为分离(separation)。

分离的情况:

  1. 图显式的给定变量集 S S 的情况下,变量集 A A 和变量集 B B 无关
  2. 变量 a a b b 之间没有路径
  3. 变量 a a b b 之间的所有路径都包含可观测的变量

不分离的情况:

  1. 变量 a a b b 之间的路径仅涉及未观测变量

在有向模型中,这些概念被称为d-分离。

d-分离的情况如下图所示(图源:深度学习):

分离和d-分离只能告诉我们图中隐含的条件独立性

5. 从图模型中采样

原始采样的基本思想是将图中的变量 x i x_i 使用拓扑排序。

原始采样通常非常快,并且非常简便。

缺点是其仅适用于有向模型,并且不是每次采样都是条件采样操作。

从无向模型中采样时一个成本很高的多次迭代的过程,理论上最简单的方法是Gibbs采样


如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

猜你喜欢

转载自blog.csdn.net/zhq9695/article/details/86594042
今日推荐