对贝叶斯分类来说,考虑如何基于概率和误判损失来选择最优的类别标记。
贝叶斯公式
判别式:给定x,直接建模p(c|x)来预测c,例如决策树、BP神经网络、支持向量机
生成式:先对联合概率分布p(x,c)建模,再得到p(c|x),例如贝叶斯。
:先验概率,样本所占样本空间的比例。先验概率是指我们主观通过事件发生次数对概率的判断。
:泳衣归一化的证据因子
:条件概率,或似然。
:后验概率
由此,将估计后验概率 的问题转化为估计先验概率 和似然
极大似然估计 MLE(概率主义学派)
参数估计有两种解决方案:
1)概率主义学派:参数客观存在固定值。经典方法:极大似然估计
2)贝叶斯学派:参数服从先验分布,基于观察的数据计算参数的后验分布
极大似然估计,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。即:“模型已定,参数未知”。
假设样本独立同分布,对样本集D,联合概率密度函数p(D|θ)称为θ的似然函数。似然函数则为:
极大似然估计:求使得出现该组样本的概率最大的θ值。
取对数之后,两数乘积的对数等于各自的对数之和:
如果未知参数只有一个(θ为标量),似然函数满足连续、可微的正则条件下直接求导,
如果未知参数有多个(θ为向量),,梯度算子为,若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解:
求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数;
(4)解似然方程。
朴素贝叶斯分类器
朴素贝叶斯的前提是:贝叶斯定理、特征条件独立假设。
估计后验概率 的问题转化为估计先验概率 和似然,但是似然难以从有限的样本直接估计到。
因而,朴素贝叶斯做了“属性条件独立性假设”,假设所有的属性相互独立。
对于所有的类别来说,p(x)相同,表达式为
如果某个属性值未出现,一般用“拉普拉斯平滑”:
表示类别数目,即标签数目; 表示第i个属性可能的取值数目。