统计学习方法读书笔记(四)

朴素贝叶斯法的学习与分类
基本方法:
假设输入空间这里写图片描述是n维向量的集合,输出空间这里写图片描述x是定义在输入空间X上的随机变量,y是定义在输出空间Y的随机变量,P(X,Y)是X,Y的联合分布。朴素贝叶斯就是通过训练数据集学习联合分布。实质就是学习先验概率和条件概率。先验概率如下:这里写图片描述.
条件概率如下:
这里写图片描述。通过这种方式就学习到了联合概率分布。
朴素贝叶斯法对条件概率做了独立性的假设,具体独立性假设如下:这里写图片描述
对于给定的输入x,通过学习到的模型计算后验概率分布这里写图片描述,将后验概率最大的类作为x的类输出,后验概率计算根据贝叶斯定力进行。
贝叶斯定理:
这里写图片描述
将独立性假设带入贝叶斯定理,最后可得如下:
这里写图片描述
朴素贝叶斯分类器如下:
这里写图片描述
由于对所有的Ck,分母都是相同的,所以上式可以简化为:
这里写图片描述

朴素贝叶斯法的参数估计。
极大似然估计:
先验概率的极大似然估计是:
这里写图片描述
设第j个特征这里写图片描述可能取值的集合为这里写图片描述,条件概率这里写图片描述的极大似然估计是:
这里写图片描述。I是指示函数。
学习与分类算法:
输入:这里写图片描述,
输出:实例x的分类。
1.计算先验概率和条件概率:
这里写图片描述
2.对于给定的实例这里写图片描述,计算:
这里写图片描述
3.确定x的类别:
这里写图片描述
这就是朴素贝叶斯算法的整个过程。
当然,用极大似然估计法可能出现概率值为0的情况,这是会影响后验概率的计算,为解决这一问题,引入拉普拉斯平滑(Laplace smoothing).
具体过程请参照如下博客:
https://zhuanlan.zhihu.com/p/26329951
下一篇:决策树。
如有错误,欢迎批评指正。

猜你喜欢

转载自blog.csdn.net/weixin_38347387/article/details/78814395