机器学习笔记2 -- 贝叶斯分类

问题域
分类VS回归
前者是预测一个标签(类型、类别);后者则是预测一个量。分类模型输出的预测值是离散值;而回归模型输出的预测值则是连续值。

模型函数
贝叶斯准则:“后验概率和先验概率的关系
条件独立性假设
实际情况下影响B的因素有n个,假设为b1~bn。则有

根据链式法则有

假设b1到bn这些特征之间在概率分布上是条件独立的,即每个特征和其它特征均不相关。则有

b1~bn为Feature,A为Class,上式可以改写为


目标函数
上述推导还存在一个隐含的假设,即未被观察到的部分出现概率为0,简单的将频率当做了概率。
这显然是不合理的,实际通常会使用某特征在数据样本中的分布来计算该特征的条件概率。
假设第i个的条件概率P(Xi|C)符合特定的形式(高斯分布),那么P(Xi|C)被参数θc,i(均值μ和方差σ)唯一确定。目标就是通过训练集得到参数θc,i,也就获得了对应特征的具体概率分布函数。将Xi的值带入即可求得条件概率P(Xi|C)。
参数估计方法-- 极大似然估计 (Maximum Likelihood Estimation, MLE)
似然指某种事件发生的可能性,它和概率的区别在于:概率用在已知参数的情况下,用来预测后续观测所得到的结果。似然则用于参数未知,但某些观测所得结果已知的情况,用来对参数进行估计。
参数θc,i的似然函数记作:

它表示在类别为c的所有样本在第i个特征上的联合概率分布。
极大似然估计就是寻找让似然函数取值达到最大的参数的估计方法。

优化算法
为便于计算,对上试取对数,得到θc,i的对数似然:

因为自然对数 log 是一个连续且在似然函数的值域内严格递增的上凸函数。所以我们对似然函数求导,然后在设定导函数为0的情况下,求取 θc,i 的最大值。

优缺点
优点:接受大量数据训练和查询时所具备的高速度,支持增量式训练;对分类器实际学习的解释相对简单
缺点:无法处理基于特征组合所产生的变化结果

附:不用公式介绍贝叶斯决策论

http://blog.sina.com.cn/s/blog_3d2600e20102w21t.html


猜你喜欢

转载自blog.csdn.net/zjl0105/article/details/81024254
今日推荐