贝叶斯网络Bayesian Network (朴素贝叶斯,Naive )

1. 概率论

与之相关的有概率论的一些知识,这里先做简单知识复习。

1.1 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。若只有两个事件A,B,那么 P ( A B ) = P ( A B ) P ( B ) P(A|B)=\frac {P(AB)}{P(B)} 设E 为随机试验,Ω 为样本空间,A,B 为任意两个事件,设P(A)>0,称 P ( B A ) = P ( A B ) P ( A ) P(B|A)=\frac {P(AB)}{P(A)} 为在“事件A 发生”的条件下事件B 的条件概率。上述乘法公式可推广到任意有穷多个事件时的情况。设 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n 为任意n个实践(n>=2)且 P ( A 1 A 2 . . . A n ) > 0 P(A_1A_2...A_n)>0 ,则 P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 A 1 ) . . . P ( A n A 1 A 2 . . . A n 1 ) P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)...P(A_n|A_1A_2...A_{n-1})

1.2 全概率公式

定义:(完备事件组/样本空间的划分)
设B1,B2,…Bn是一组事件,若
(1) i j ϵ { 1 , 2 , . . . n } , B i n B j = \forall_i \neq j \epsilon \{1,2,...n\},B_inB_j= \emptyset
(2)B1∪B2∪…∪Bn=Ω
则称B1,B2,…Bn样本空间Ω的一个划分,或称为样本空间Ω 的一个完备事件组。
定理(全概率公式)
设事件组 { B } \{B\} 是样本空间Ω 的一个划分,且P(Bi)>0(i=1,2,…n)则对任一事件B,有 P ( A ) = i = 1 n P ( B i ) P ( A B i ) P(A)=\sum_{i=1}^nP(B_i)P(A|B_i)

1.3 贝叶斯公式

设B1,B2,…Bn…是一完备事件组,则对任一事件A,P(A)>0,有 P ( B i A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A B i ) i P ( B i ) P ( A B i ) P(B_i|A)=\frac {P(AB_i)}{P(A)}=\frac {P(B_i)P(A|B_i)}{\sum_i P(B_i)P(A|B_i)}

1.4 独立性

当且仅当两个随机事件A与B满足P(A∩B)=P(A)P(B)的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。同样,对于两个独立事件A与B有P(A|B)=P(A)以及P(B|A)=P(B)换句话说,如果A与B是相互独立的,那么A在B这个前提下的条件概率就是A自身的概率;同样,B在A的前提下的条件概率就是B自身的概率。

2. 简单图分析(简单贝叶斯网络独立性分析)

在这里插入图片描述
P ( A , B , C ) = P ( C A , B ) P ( B A ) P ( A ) P(A,B,C)=P(C|A,B)P(B|A)P(A) 这个是对上面图的简单表示三个变量a,b,c的联合概率分布。对这个简单图有一定了解后深入了解会的到下列几个有趣的结论,后面可能会用到。
在这里插入图片描述
即 :在c给定的条件下,a,b被阻断(blocked)是独立的。
在这里插入图片描述
即 :在c给定的条件下,a,b被阻断(blocked)是独立的。
在这里插入图片描述
即 :而对于上图,在c未知的条件下,a,b被阻断(blocked)是独立的。
上面都是可以根据基本公式推导出来,如果感兴趣可以参考 : PRML 模式识别与机器学习

3. 朴素贝叶斯

朴素贝叶斯(Naive Bayes,NB)是基于** “特征之间是独立的”**这一朴素假设,应用贝叶斯定理的监督学习算法。

3.1朴素贝叶斯的推导

  • 对于给定的特征向量 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n
  • 类别 y 的概率可以依据贝叶斯公式得到: P ( y x 1 , x 2 , . . . , x n ) = P ( y ) P ( x 1 , x 2 , . . . , x n y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_1,x_2,...,x_n)=\frac{P(y)P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)}
  • 使用朴素的独立性假设: P ( x i y , x 1 , x 2 , . . . , x n ) = P ( x i y ) P(x_i|y,x_1,x_2,...,x_n)=P(x_i|y)
  • 类别 y 的概率可简化为: P ( y x 1 , x 2 , . . . , x n ) = P ( y ) P ( x 1 , x 2 , . . . , x n y ) P ( x 1 , x 2 , . . . , x n ) = P ( y ) i = 1 n P ( x i y ) P ( x 1 , x 2 . . . , x n ) P(y|x_1,x_2,...,x_n)=\frac{P(y)P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)}=\frac{P(y) \prod_{i=1}^nP(x_i|y)}{P(x_1,x_2...,x_n)}
  • 在给定样本的前提下, P ( x 1 , x 2 . . . , x n ) P(x_1,x_2...,x_n) 是常数: P ( y x 1 , x 2 , . . . , x n ) P ( y ) i = 1 n P ( x i y ) P(y|x_1,x_2,...,x_n)\infty P(y)\prod_{i=1}^nP(x_i|y)
  • 从而有 y ^ = a r g m a x P ( y ) i = 1 n P ( x i y ) \hat y=argmaxP(y)\prod_{i=1}^nP(x_i|y)

3.2 高斯朴素贝叶斯(Gaussian Naive Bayes)

  • 根据样本使用MAP估计 P ( y ) P(y) ,建立合理的模型估计 P ( x i y ) P(x_i|y) ,从而得到样本的类别。 y ^ = a r g m a x P ( y ) i = 1 n P ( x i y ) \hat y=argmaxP(y)\prod_{i=1}^nP(x_i|y)
  • 假设特征服从高斯分布,即: P ( x i y ) = 1 2 π σ y e x p ( ( x i μ y ) 2 2 σ y 2 ) P(x_i|y)=\frac{1}{\sqrt{2π}\sigma_y }exp \left(-\frac{(x_i-\mu_y)^2}{2\sigma_y^2}\right)
    参数估计使用MLE极大似然就可以

3.3 多项分布朴素贝叶斯(Multinomial Native Bayes)

  • 假设特征服从多项分布,从而,对每个类别y,参数为 θ y = ( θ y 1 , θ y 2 , . . . , θ y n ) \theta_y=(\theta_{y1},\theta_{y2},...,\theta_{yn}) ,其中n为特征的数目, P ( x i y ) P(x_i|y) 的概率为 θ y i \theta_{yi}
  • 参数 θ y \theta_y 使用MLE估计的结果为: θ y i ^ = N y i + α N y + α n , α 0 \hat{\theta_{yi}}=\frac{N_{yi}+\alpha}{N_y+\alpha \cdot n}, \alpha\geq0
  • 假定训练集为 T T ,有: N y i = x ϵ T x i , N y = i = 1 a N y i N_{yi}=\sum_{x\epsilon T}x_i, N_{y}=\sum_{i=1}^{|a|}N_{yi}
  • 其中 α = 1 \alpha=1 称为Laplace平滑, α < 1 \alpha<1 称为Lidstone平滑。

猜你喜欢

转载自blog.csdn.net/H_hei/article/details/84327975