分类算法(三):贝叶斯分类器的原理

对贝叶斯分类来说,考虑如何基于概率和误判损失来选择最优的类别标记。

贝叶斯公式

判别式:给定x,直接建模p(c|x)来预测c,例如决策树、BP神经网络、支持向量机

生成式:先对联合概率分布p(x,c)建模,再得到p(c|x),例如贝叶斯。

P(c|x) =\frac{ P(x,c)}{ P(x)} = \frac{ P(c) P(x|c)}{ P(x)}

P(c) :先验概率,样本所占样本空间的比例。先验概率是指我们主观通过事件发生次数对概率的判断。

P(x) :泳衣归一化的证据因子

P(x|c) :条件概率,或似然。

P(c|x) :后验概率

由此,将估计后验概率P(c|x) 的问题转化为估计先验概率P(c) 和似然P(x|c)

极大似然估计 MLE(概率主义学派)

参数估计有两种解决方案:

1)概率主义学派:参数客观存在固定值。经典方法:极大似然估计

2)贝叶斯学派:参数服从先验分布,基于观察的数据计算参数的后验分布

极大似然估计,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。即:“模型已定,参数未知”

假设样本独立同分布,对样本集D,联合概率密度函数p(D|θ)称为θ的似然函数。似然函数则为:

极大似然估计:求使得出现该组样本的概率最大的θ值。

取对数之后,两数乘积的对数等于各自的对数之和:

如果未知参数只有一个(θ为标量),似然函数满足连续、可微的正则条件下直接求导,

如果未知参数有多个(θ为向量),,梯度算子为,若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解:

求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数;
(4)解似然方程。

朴素贝叶斯分类器

朴素贝叶斯的前提是:贝叶斯定理、特征条件独立假设。

估计后验概率P(c|x) 的问题转化为估计先验概率P(c) 和似然P(x|c),但是似然P(x|c)难以从有限的样本直接估计到。

因而,朴素贝叶斯做了“属性条件独立性假设”,假设所有的属性相互独立。

P(c|x) =\frac{ P(c) P(x|c)}{ P(x)} =\frac{ P(c) }{ P(x)} \prod_{i=1}^{d}P(x_{i}|c)

对于所有的类别来说,p(x)相同,表达式为

h_{nb}(x)=\arg \max P(c)\prod_{i=1}^{d}P(x_{i}|c)

如果某个属性值未出现,一般用“拉普拉斯平滑”:

\hat{P}(c) =\frac{|D_{c}|+1}{|D|+N}               \hat{P}(x_{i}|c) =\frac{|D_{c,x_{i}}|+1}{|D_{c}|+N_{i}}

N表示类别数目,即标签数目;N_{i} 表示第i个属性可能的取值数目。

发布了93 篇原创文章 · 获赞 119 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/qq_18310041/article/details/95373008