机器学习(一)贝叶斯判别式

版权声明: https://blog.csdn.net/qq_26386707/article/details/79331280

机器学习(一)贝叶斯判别式

2018/2/13
by Chenjing Ding


符号 含义
C k 第k类
p 概率密度
P ( C k ) 第k类的概率。本文中的概率密度和概率在公式推导时已严格区分
x 输入数据;可为训练样本(已知类别)或者待分类数据(未知类别),为变量
q 输入数据,有固定取值,非变量
m 类型总数

一.三个基本概率

1.1先验概率

根据经验得到的概率。比如 P ( C k ) :第k类的先验概率

1.2条件概率

P x | C k : 在第k类中产生观察到的数据x的概率,表示了x是由第k类产生的可能性。

1.3后验概率

P C k | x :输入数据x是第k类的概率。

1.4 三者关系

p ( x , C k ) = p ( x | C k ) P ( C k ) = P ( C k | x ) p ( x )

其中x是连续随机变量,注意 P ( x ) = 0 ;表达式中采用的是概率密度函数。
C 是离散随机变量,表达式中采用的是概率。

-具体参考Christopher M. Bishop,Pattern Recognition and Machine Learning,Springer, 2006 1.2.1节。
-在第二节4.3生成模型和判别模型的比较中再来比较条件概率和后验概率。

二.贝叶斯判别式最佳决策准测的推导

目标函数:
使错分输入数据x的概率最小。
 图1 贝叶斯判别式最小化错分概率

1

已知决策准测 x 0 , 当 x < x 0 ,即 x R 1 ,贝叶斯决策认为x属于 C 1 类,反之则为$C_2类。

P m i s t a k e = P x R 1 , C 2 + P ( x R 2 , C 1 ) = R 1 p ( x , C 2 ) d x + R 2 p ( x , C 1 ) d x = R 1 P ( C 2 | x ) p ( x ) d x + R 2 P ( C 1 | x ) p ( x ) d x

观察上图,当决策准则为 x ^ ,P(mistake)是红色,绿色和蓝色的面积和。当决策准则为 x 0 ,P(mistake)是绿色和蓝色的面积和。要使P(mistake)的概率最小,应使红色面积部分最小。当 p x , C 1 = p ( x , C 2 ) 时,红色部分面积为0;即分界线为 { x |   p ( x , C 1 ) = p ( x , C 2 ) }

最佳决策准测:
根据上述分界线,当 P ( C 1 | x ) p ( x ) > P ( C 2 | x ) p ( x ) ,贝叶斯决策将x分为 C 1 类;
即: p ( x | C 1 ) P ( C 1 ) > p ( x | C 2 ) P ( C 2 )

p ( x | C 1 ) p ( x | C 2 ) > P ( C 2 ) P ( C 1 )
其中 P ( C 2 ) P ( C 1 ) 称为 决策阈值

三.损失函数在贝叶斯判别式中的的应用

3.1贝叶斯决策损失函数的定义

L k j 0 < k , j <= m : 如果x被分类到第j类,而其实x是第k类的损失值。损失矩阵就是由这些损失值构成的矩阵。

3.2带损失函数的最佳决策准测

3.2.1 损失函数的期望

条件损失函数期望:
R ( a j | q ) : 对于一个特定的q输入,采取决策 a j 的损失期望,也叫做条件风险。

R ( a j | q ) = k = 1 m L k j P ( C k | q )

损失期望:
R:对于所有决策总的损失期望。

R = k = 1 m j = 1 m R j L k j p ( x , C k ) d x   = j = 1 m R j [ k = 1 m L k j P ( C k | x ) ] p ( x ) d x = j = 1 m R j R ( a j | x ) p ( x ) d x = E ( R ( a j | q ) )

3.2.2 目标函数

对于给定输入q,选择条件风险最小的决策,可使总的损失期望最小。
以两类为例:
假设有两个类 C 1 , C 2 ,有两个决策 a 1 a 2 。损失函数 L ( a j | C k ) = L k j

R ( a 1 | x ) = L 11 P ( C 1 | x ) + L 21 P ( C 2 | x ) R ( a 2 | x ) = L 12 P ( C 1 | x ) + L 22 P ( C 2 | x )

如果 R ( a 2 | x ) > R ( a 1 | x ) ,选择a1。

L 12 P ( C 1 | x ) + L 22 P ( C 2 | x ) > L 11 P ( C 1 | x ) + L 21 P ( C 2 | x ) L 12 L 11 L 21 L 22 > P ( C 2 | x ) P ( C 1 | x ) = p ( x | C 2 ) P ( C 2 ) p ( x | C 1 ) P ( C 1 ) p ( x | C 1 ) p ( x | C 2 ) > P ( C 2 ) ( L 21 L 22 ) P ( C 1 ) ( L 12 L 11 )
上式即为考虑损失函数的贝叶斯最佳决策准则。

猜你喜欢

转载自blog.csdn.net/qq_26386707/article/details/79331280