机器学习之朴素贝叶斯学习笔记

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

一、朴素贝叶斯法理论知识

1. 朴素贝叶斯法的学习与分类

1.1基本方法：

①先验概率分布

②条件概率分布

③条件独立性假设

条件独立假设是说用于分类的特征在类确定的条件下都是条件独立的。（这能使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率）

④联合概率分布

⑤后验概率

⑥朴素贝叶斯分类器

1.2后验概率最大化的含义

①朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。

②朴素贝叶斯法的损失函数选择0-1损失函数其中f(X)是分类决策函数

③期望风险函数

④条件期望

⑤为了使期望风险最小化，只需对X=x逐个极小化，由此得到：

⑥根据期望风险最小化原则，得到后验概率最大化准则：

这也是朴素贝叶斯法所采用的原理

2. 朴素贝叶斯法的参数估计

2.1极大似然估计

在朴素贝叶斯法中，学习意味着估计先验概率分布和条件概率分布，可应用极大似然估计法估计相应的概率。

先验概率的极大似然估计是

设第j个特征可能取值的集合为，条件概率的极大似然估计是

2.2学习与分类算法

朴素贝叶斯算法

2.3贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差，解决这一问题的方法是采用贝叶斯估计。

条件概率的贝叶斯估计为

对于任意的

先验概率的贝叶斯估计为

二、朴素贝叶斯法理解

1. 在机器学习中，朴素贝叶斯分类器是一个基于贝叶斯定理的比较简单的概率分类器，其中 naive（朴素）是指的对于模型中各个 feature（特征）有强独立性的假设，并未将 feature 间的相关性纳入考虑中。贝叶斯模型在很多方面都有应用，如垃圾邮件识别、文本的模糊匹配、欺诈判别、商品推荐等等。

2. 朴素贝叶斯的基本算法为：

可转换成下列形式：

其中假想 (hypothesis) 也可称为模型 (model)，或监督学习里面的标记 (label)，而数据 (data) 也可称为信息 (information)，是监督学习里面的特征 (feature)，再者P(假想) 是假想的先验概率 (prior probability), 可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出，P(数据|假想) 是给定假想后数据的可能性 (likelihood) 或条件概率，一般是通过历史数据统计得到，或者人为主观给出。

P(假想|数据) 是假想的后验概率 (posteriori probability)，是需要求的目标。

P(数据) 是数据的先验概率，如果仅仅是通过后验概率大小来分类那么都不用计算它，只有在算出后验概率具体数值时才需要计算它。

贝叶斯公式其实就是告诉我们，怎样根据观察到的数据来更新我们的先验概率，从而获得对假说的新看法– 后验概率。

再进一步将贝叶斯公式变形可得

这就是贝叶斯推断的含义。我们先预估一个“先验概率”，然后加入实验结果，看这个实验到底是增强还是削弱了“先验概率”，由此得到更接近事实的"后验概率"。在这里，如果“调整因子” P(数据|假想) / P(数据)

l 大于 1，意味着"先验概率"被增强，假想发生的可能性变大
l 等于 1，意味着数据无助于判断假想的可能性
l 小于 1，意味着"先验概率"被削弱，假想发生的可能性变小

三、朴素贝叶斯法的应用

1. 优点：

（1）算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化一下即可）

（2）分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）

2. 缺点：

理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

3. 应用场景：

在考虑一个结果的概率时候，要考虑众多的属性，贝叶斯算法利用所有可能的数据来进行修正预测，如果大量的特征产生的影响较小，放在一起，组合的影响较大，适合于朴素贝叶斯分类。

4. 应用范围：

贝叶斯定理广泛应用于决策分析。先验概率经常是由决策者主观估计的。在选择最佳决策时，会在取得样本信息后计算后验概率以供决策者使用。

5. 分类工作流程：

本文首发于微信公众号“自由奇点”

参考资料：李航老师的《统计学习方法》及知乎、百度百科、CSDN、博客园等网络内容，如有侵权，请联系作者，谢谢！

机器学习之朴素贝叶斯学习笔记

猜你喜欢