引言
贝叶斯网络
Bayesian network
belief network
directed acyclic graphical model
借由DAGs(有向无环图)得到一组随机变量{X1, X2, …, Xn}及其n组条件概率分布(conditional probability distributions,or CPDs)。
联合概率分布
- 联合分布通常表示为一张表,包含状态组合个数
- 如:I:学生智力 D:试卷难度 G:成绩等级
条件概率分布、边缘分布
贝叶斯定理
- 基本思想:
通过先验概率和类条件概率表达式,计算后验概率。 - 先验概率:
指在得到任何新证据之前,统计的事件概率——即非条件概率; - 后验概率:
考虑给定新证据之后,统计的事件概率——即条件概率,P(事件|证据)。 - 链式规则
- 贝叶斯定理链式法则(考虑多个证据)
贝叶斯网络 B(G,P)
- G:有向无环图 (Directed Acyclic Graph)
- P:条件概率表(Conditional Probability Table)
- 节点——代表随机变量
- 有向边——代表节点间的(因果/依赖)关系,且存在条件概率表达这种关系的强度
- 每个节点有一个概率分布:非根节点->条件概率;没有父节点的根节点->先验概率
利用条件独立降低计算复杂度
- 条件独立性可以由图的结构判定
- 有向分离法(D-separation)
- 在V型结构(汇合连接)两个父节点间加上一条无向边
- 将所有有向边改为无向边
- 有向分离:将变量集合{ zi }去掉后,x与y不连通,则在{ zi }一定的情况下,x与y相互独立。
学习算法
结构学习
基于专家
通常在故障诊断领域内,通常由专家给出随机变量的因果图,得到BN结构
基于数据:
训练数据集找到结构最恰当的网络
基于评分函数
- K2评分函数,数据服从多项式分布,Cooper and Herskovits
- BD评分函数,数据符合dirichlet分布,Heckerman
“最小描述长度”(Minimal Description Length, MDL)准则,看作数据压缩任务。
对于n个变量,可能的结构数目
近似求解:贪心算法
近似求解:半朴素贝叶斯
基于依赖关系(基于条件独立性)
识别节点间(条件)独立性关系,适用于结构稀疏的网络结构学习。
参数学习
学习节点的分布参数,即每条边对应的条件概率分布
- 极大似然法
假设的概率分布形式(概率密度函数)是否符合真实数据分布 对准确性影响很大 - 贝叶斯分类器
- 朴素贝叶斯
假设属性独立地对分类效果产生影响,“属性条件独立性假设” - 半朴素贝叶斯
常用独依赖估计:在类别之外最多仅依赖一个其他属性 - 朴素贝叶斯和半朴素贝叶斯
推理算法
已知变量观测值(证据),通过计算回答 查询
- 因果推理(自顶而下)
- 诊断推理(自顶而上)
- 支持推理:分析原因之间的相互影响,提供一些解释
规模较小、不要求推理效率,精确:如联结树算法
网络节点众多、连接稠密、规模大,NP难,近似:如随机抽样算法
马尔科夫链蒙特卡洛(Markov chain Monte Carlo, MCMC)——Gibbs算法
某个概率分布随机抽样,生成一组样本,然后从样本出发近似估计要计算的量