可解释人工智能导论-读书笔记(2)

第二章 贝叶斯方法

建模多个随机变量的联合概率分布,刻画数据和模型中的不确定性和关联性。

2.1 贝叶斯网络

是一类重要的概率图模型,主要解决问题:表示、推断、学习。

关键要素:有向无环图G、概率分布p

表示

随机变量 X = ( X 1 , X 2 , . . . , X d ) , π k 是 X k 对应的父节点集合, X π k 为对应的随机变量的集合 X = (X_1,X_2,...,X_d),\pi_k是X_k对应的父节点集合,X_{\pi k}为对应的随机变量的集合 X=(X1,X2,...,Xd),πkXk对应的父节点集合,Xπk为对应的随机变量的集合

联合概率分布表示为 因子连乘的形式:
p ( X ) = ∏ i = 1 d p ( X i ∣ X π x ) p(X) = \prod\limits_{i=1}^dp(X_i|X_{\pi x}) p(X)=i=1dp(XiXπx)
条件独立性:A和B 在给定C的条件下独立。

三种条件独立的基本结构:叉型、链型、对撞

推断

  1. 似然 :观察到变量的取值e(aka 证据),计算值的概率。(例如,计算老鼠和老鹰种群发展良好的概率 P(A=1,D=1))
  2. 条件概率:观察到证据e,计算未观察变量的条件概率 后验概率。 (例如,假设老鼠发展良好,那么老鹰发展如何 P(A|D=1))
  3. 最大后验概率取值:给定一些证据e,计算未观察到最大概率取值。(同上,那么鹰最有可能的发展情况?argmax p(A=a|D=1))

变量消减:精确推断方法

近似推断方法:快速给出近似结果。主要有两类,第一类是基于采样的方法,马尔科夫链蒙特卡洛方法。第二类是变分推断方法,找离真正的后验分布最近的一个作为近似。

贝叶斯网络的学习

  1. 参数学习:假设贝叶斯网络结构给定,估计最优的参数or概率分布

    点估计。 指标为统计散度。最大似然估计,等价于KL散度。

    完全贝叶斯方法:把模型参数看做全局随机变量(先验),应用贝叶斯公式,估计一个参数上的后验概率分布,考虑所有模型 求平均

  2. 结构学习

贝叶斯规划学习

小样本学习:给定几个数据情况下,如何学习一个合适的模型来完成预测

贝叶斯规划学习 BPL 是可解释的层次化贝叶斯模型:

  1. 表示: 符号层次(BPL采样不同的基本单元构建子部分,到部分之间关系,到 字)+实体层次(给定模板 逐步书写)

  2. 推断:给定图片,BPL推断对应的部分、子部分、关系的后验概率分布。(从左上角随机游走,采样所有可能,得到近似后验)

  3. 学习:两个层次,传统学习(在很多不同字符训练,推断参数的后验分布),学习如何学习(在新数据上 运用之前的经验迁移学习)

2.2 贝叶斯深度学习

贝叶斯学习和深度学习的交叉融合

  • 深度生成模型:利用NN的拟合能力,在概率建模中刻画变量复杂关系,得到能力更强的概率模型
  • 贝叶斯神经网络:通过贝叶斯推断刻画深度学习中的模型不确定性,将权重变为了概率分布

深度生成模型

变分自编码器 VAE 和生成式对抗网络 GAN 。二者拟合数据的生成存在不可解释。因此通过贝叶斯网络表达可解释的,网络拟合剩下的。

例子: 概率图生成式对抗网络 Graphical-GAN,可以在没有语义标注情况下,自动学到可解释的特征。

贝叶斯神经网络

dropout,深度学习上的近似贝叶斯推断

MC dropout,把同一个网络的不同随机版本当做后验分布采样,可以估计平均预测,也可以估计预测的不确定性。

从贝叶斯网络到可解释的因果模型

因果模型考虑了模型外的变量,同时连接关系刻画的是因果关系(有方向的)t.js/# 第二章 贝叶斯方法

建模多个随机变量的联合概率分布,刻画数据和模型中的不确定性和关联性。

2.1 贝叶斯网络

是一类重要的概率图模型,主要解决问题:表示、推断、学习。

关键要素:有向无环图G、概率分布p

表示

随机变量 X = ( X 1 , X 2 , . . . , X d ) , π k 是 X k 对应的父节点集合, X π k 为对应的随机变量的集合 X = (X_1,X_2,...,X_d),\pi_k是X_k对应的父节点集合,X_{\pi k}为对应的随机变量的集合 X=(X1,X2,...,Xd),πkXk对应的父节点集合,Xπk为对应的随机变量的集合

联合概率分布表示为 因子连乘的形式:
p ( X ) = ∏ i = 1 d p ( X i ∣ X π x ) p(X) = \prod\limits_{i=1}^dp(X_i|X_{\pi x}) p(X)=i=1dp(XiXπx)
条件独立性:A和B 在给定C的条件下独立。

三种条件独立的基本结构:叉型、链型、对撞

推断

  1. 似然 :观察到变量的取值e(aka 证据),计算值的概率。(例如,计算老鼠和老鹰种群发展良好的概率 P(A=1,D=1))
  2. 条件概率:观察到证据e,计算未观察变量的条件概率 后验概率。 (例如,假设老鼠发展良好,那么老鹰发展如何 P(A|D=1))
  3. 最大后验概率取值:给定一些证据e,计算未观察到最大概率取值。(同上,那么鹰最有可能的发展情况?argmax p(A=a|D=1))

变量消减:精确推断方法

近似推断方法:快速给出近似结果。主要有两类,第一类是基于采样的方法,马尔科夫链蒙特卡洛方法。第二类是变分推断方法,找离真正的后验分布最近的一个作为近似。

贝叶斯网络的学习

  1. 参数学习:假设贝叶斯网络结构给定,估计最优的参数or概率分布

    点估计。 指标为统计散度。最大似然估计,等价于KL散度。

    完全贝叶斯方法:把模型参数看做全局随机变量(先验),应用贝叶斯公式,估计一个参数上的后验概率分布,考虑所有模型 求平均

  2. 结构学习

贝叶斯规划学习

小样本学习:给定几个数据情况下,如何学习一个合适的模型来完成预测

贝叶斯规划学习 BPL 是可解释的层次化贝叶斯模型:

  1. 表示: 符号层次(BPL采样不同的基本单元构建子部分,到部分之间关系,到 字)+实体层次(给定模板 逐步书写)

  2. 推断:给定图片,BPL推断对应的部分、子部分、关系的后验概率分布。(从左上角随机游走,采样所有可能,得到近似后验)

  3. 学习:两个层次,传统学习(在很多不同字符训练,推断参数的后验分布),学习如何学习(在新数据上 运用之前的经验迁移学习)

2.2 贝叶斯深度学习

贝叶斯学习和深度学习的交叉融合

  • 深度生成模型:利用NN的拟合能力,在概率建模中刻画变量复杂关系,得到能力更强的概率模型
  • 贝叶斯神经网络:通过贝叶斯推断刻画深度学习中的模型不确定性,将权重变为了概率分布

深度生成模型

变分自编码器 VAE 和生成式对抗网络 GAN 。二者拟合数据的生成存在不可解释。因此通过贝叶斯网络表达可解释的,网络拟合剩下的。

例子: 概率图生成式对抗网络 Graphical-GAN,可以在没有语义标注情况下,自动学到可解释的特征。

贝叶斯神经网络

dropout,深度学习上的近似贝叶斯推断

MC dropout,把同一个网络的不同随机版本当做后验分布采样,可以估计平均预测,也可以估计预测的不确定性。

从贝叶斯网络到可解释的因果模型

因果模型考虑了模型外的变量,同时连接关系刻画的是因果关系(有方向的)

猜你喜欢

转载自blog.csdn.net/weixin_44546100/article/details/127751640