机器学习(7) -- 贝叶斯分类器

7.1 贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优类别标记。

 

把样本x分类为ci,在样本x上的“条件风险”:

总体风险

贝叶斯判定准则:最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记

h*称为贝叶斯最优分类器,与之对应的总体风险R(h*)称为贝叶斯风险。 1-R(h*)反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限

 

从概率框架的角度理解机器学习:机器学习所要实现的是基于有限样本集尽可能准确地估计出后验概率P(c|x)

两种策略:

判别式模型:给定Xi,通过直接建模P(c|x)来预测c

生成式模型:先对联合概率分布P(x,c)建模,然后再由此获得P(c|x)

 

决策树、BP神经网络、支持向量机等,都是判别式模型

 

对生成式模型

类先验概率P(c),根据大数定律,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率估计

类条件概率P(x|c),涉及所有属性上的联合概率,很多样本取值在训练集中根本没出现,所以不能直接用频率来估计

7.2 极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计

概率模型的训练过程就是参数估计

参数估计两大学派:频率学派,贝叶斯学派

频率学派认为参数虽然未知,但是客观存在的固定值,因此可通过优化似然函数等准则来确定参数值

贝叶斯学派认为参数是未观察到的随机变量,其本身也可有分布,因此可假定参数服从一个先验分布,然后基于观测的数据来计算参数的后验分布

 

极大似然估计:

Dc是D中c类样本集合,样本独立同分布,参数θc对于Dc的似然是

对数似然

解得估计值

 

极大似然估计这种参数化方法虽能使概率估计变得简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布

7.3 朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率P(C|X)的主要困难在于:类条件概率P(x|c)是所有属性上的联合概率,难以从有限样本直接估计而得。(基于有限样本直接估计联合概率,在计算上将会遭遇组合爆炸问题,在数据上将会遭遇样本稀疏问题;属性数越多,问题越严重)

为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。

于是,

可以写成

于是,朴素贝叶斯分类器表达式

需注意,若某个属性值在训练集中没有与某个类同时出现过,则直接进行概率估计会出问题,连乘式计算出的概率值为0,于是,为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时要平滑,常用拉普拉斯修正

N是训练集D可能的类别数,Ni表示第i个属性可能的取值数

拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题,并且训练集变大时,修正过程引入的先验影响也逐渐变得可忽略,使估计值渐趋向于实际概率值。

拉普拉斯修正实质上假设了属性值与类别均匀分布,这是在朴素贝叶斯学习过程中额外引入的关于数据的先验。

7.4半朴素贝叶斯分类器

朴素贝叶斯分类器采用属性条件独立性假设,但实际往往不成立,于是,对属性条件独立假设进行一定程度放松,由此产生“半朴素贝叶斯分类器”

基本想法是适当考虑一部分属性间的相互依赖信息,既不需进行完全联合概率计算, 又不至于彻底忽略比较强的属性依赖关系

 

独依赖估计(ODE)

独依赖就是假设每个属性在类别之外最多仅依赖于一个其他属性

pai是属性xi所依赖的属性,xi的父属性

问题是,如何确定父属性

1、 超父:所有属性都依赖同一个父属性,由此产生SPODE

2、TAN:计算任意两个属性的条件互信息,刻画了两属性在已知类别情况下的相关性

3、AODE:集成学习机制,更强大。尝试将每个属性作为超父属性来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果

7.5 贝叶斯网

亦称“信念网”,借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布

贝叶斯网B由结构G和参数θ两部分组成,即B=<G,θ>

G是有向无环图,每个结点对应于一个属性,参数θ描述这种依赖关系

 

结构

为分析有向图中变量间的条件独立性,可使用“有向分离”。

找出有向图中所以V型结构,在V型结构的两个父结点之间加上一条无向边

将所有有向边改为无向边

于是产生道德图,父结点相连的过程叫道德化。容易找条件独立关系

 

学习

贝叶斯网学习的主要任务是找出结构最恰当的贝叶斯网,评分搜索”就是一个常用方法,就是先定义一个评估函数,来定义贝叶斯网和训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网。

 

常用的评分函数通常基于信息论准则,此类准则将学习问题看作一个数据压缩任务,学习目标是找到一个能以最短编码长度描述训练数据的模型,此时编码的长度包括了描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度。对贝叶斯网来说,模型就是一个贝叶斯网,每个贝叶斯网描述了一个在训练数据上的概率分布,自有一套编码机制能使那些经常出现的样本有更短的编码,于是应选择那个综合编码长度(包括描述网络和编码数据)最短的贝叶斯网,这就是“最小描述长度”准则MDL。

 

训练集 D=()

贝叶斯网 B=<G,θ>

则评分函数:

|B|是贝叶斯参数个数,f(θ)表示描述每个参数θ所需字节数LL(B|D)是贝叶斯网B的对数似然

所以,评分函数第一项是计算编码贝叶斯网B所需字节数,第二项是计算B所对应的概率分布Pb需多少字节来描述D。

AIC评分函数:f(θ)=1,每个参数用1字节描述.

BIC评分函数:f(θ)=1/2logm

7.6 EM算法

 

X:已观测变量

Z:隐变量

θ:模型参数

对Z求期望:

EM算法是常用估计参数隐变量,是一种迭代式方法,基本想法是,若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z未知,则可对参数θ做极大似然估计

 

计算方法,两步:

第一步是期望(E)步,利用当前估计的参数值来计算对数似然的期望值;

第二步是最大化(M)步,寻找能使E步产生的似然期望最大化的参数值;

然后,新得到的参数值重新被用于E步,……, 直至收敛到局部最优解。

 

发布了27 篇原创文章 · 获赞 2 · 访问量 203

猜你喜欢

转载自blog.csdn.net/weixin_43575791/article/details/105452128