机器学习算法--贝叶斯分类器

1.贝叶斯理论

在已知相关概率下,基于概率和误判损失来选择最优的类别标记。

假设类别标记总数为N,即Y{c1,c2..cn}.rij表示将一个真实样本为cj误判为ci的损失,p(ci|x)表示样本x分类为ci的概率,则有样本x的条件风险:

寻找一个判定准则h,使得X---->Y,总体风险最小

贝叶斯判定准则:对于每个样本x,若R(h(x)|x)最小,则总体风险R(h)也将最小。

h*为最优贝叶斯分类器,R(h*)为贝叶斯风险,对于每个样本,选择那个条件风险R(c|x)最小的类别标记

若最小化分类错误率,损失函数:

则样本x的条件风险:

最小化分类错误率的最优贝叶斯分类器:

欲求P(c|x)的最大值,有

      

P(c)为样本中各个类别的概率   P(x|c)是样本在分类c下的特征属性分布概率  P(x)是样本x分布概率,与类别标记无关。

P(c)表达了样本中各个类别的比重,可以利用样本中的类别数量频率来进行估计;P(x|c)是样本在已知分类为c的条件下,各个特征属性的联合分布,x为样本特征向量,一般多维,联合概率难以求解和估计。

2.极大似然估计

估计类条件概率一般采用极大似然估计,即先假定具有某种确定的概率分布形式,再基于训练样本对概率分布参数进行估计。结果的准确依赖于假设的分布是否接近于数据真实的分布。

Dc表示训练集中第c类样本组成的集合,假定这些样本独立同分布,则参数oc对于Dc的似然估计为:

即求得参数oc,使得样本所有可能出现的可能性最大

为了避免连乘造成下溢,取对数似然:

即参数似然估计的任务:

3.朴素贝叶斯分类器NBC

P(x|c)表示已知类别c下的属性联合分布,x=(x1,x2...xd)为d喂向量,一般难于求解,NBC假设x的所有特征属性相互独立,独立的对于结果发生影响,基于条件属性独立性假设

NBC分类属性表达式,即

类先验概率P(c)  Dc表示训练集D中c类样本数

对于离散属性:  Dcxi表示第c类中第一个属性值为xi的样本数

对于连续属性   假定 其中第c类样本中第i个属性取值的均值和方差(多维高斯分布)

说明:

中心极限定理:样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

拉普拉斯平滑:为避免训练集中其他属性被未出现的属性而抹去,需要进行平滑,避免因训练集样本不充分而出现概率为0的情况

N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数

4.半朴素贝叶斯分类器SNBC

独依赖估计(ODE)假设每个属性依赖于类别之外最多仅依赖于一个其他属性

pai为属性xi的依赖属性,称为xi的父属性。如何为每个属性确定父属性:

1.SPODE

假设所有属性依赖于同一个超父属性,通过交叉验证来确定最优超父属性

2.TAN

利用最大带权生成树算法

(1)计算任意两个属性之前的条件互信息

(2)以属性为节点构建完全图,权重为条件互信息

(3)构建最大带权生成树

(4)加入类别属性y,增加y到各个属性的有向边

3.AODE

采用集成学习,将每个属性作为父属性来构建SPOED,然后选取那些足够训练数据的SPODE来集成学习

Dxi是第i个属性上取值为xi的样本集合,m`为阈值

Dcxi表示类别为c且第i个属性为xi的样本集合  N表示D中可能类别数  Ni表示第i个属性可能取值数

Dcxixj  表示类别为c且第i属性为xi,第j个属性为xj的样本集合

5.贝叶斯网

5.1结构

贝叶斯网由网络结构G和参数O组成  B=<G,O>  G是一个有向无环图  O描述这种依赖关系。

给定某个节点,贝叶斯网假定属性与他的非后裔属性独立

分析变量间的条件独立性,有向分解,将有向图变为无向图:找出图中所有V型结构,在两个父节点之间添加一条无向边,将图中所有有向边变为无向边,变为道德图

在道德图中,变量x,y,能被属性集合Z={zi}分开,则说明在Z的条件下,x和y独立

5.2网络结构学习

评分函数:

其中|B|为贝叶斯网络的参数  f(O)为每个参数的编码长度  LL(B|D)为贝叶斯网的对数似然

AIC f(O)=1  

BIC  f(O)=logm/2

从所有可能空间搜索贝叶斯网是NP难问题,可以近似求解  1贪心法  逐渐增加边的数量  2施加约束来不断减少边的数量。

5.3推断

吉布斯采样算法:

Q={Q1,Q2..Qn}待查询的变量

E={E1,E2...Ek}证据变量   取值e={e1,e2...ek}

计算P(Q=q|E=e)  q={q1,q2..qn}待查询变量的一组取值

吉布斯采样算法:

6.EM算法

未观测变量为隐变量     X已观测变量   Z隐变量    O参数

对参数O进行最大似然估计

计算Z期望来最大化已观测数据的边际似然

E步:以当前参数的估计值来计算对数似然的期望值

M步:寻找使E中对数似然最大的参数值

猜你喜欢

转载自blog.csdn.net/u014106644/article/details/83305703