贝叶斯分类器
什么是贝叶斯分类器
贝叶斯分类器是一类分类器的总称,这些分类器均以贝叶斯定理为基础,故统称为贝叶斯分类器。这些分类器中最简单的是朴素贝叶斯分类器,它几乎完全按照贝叶斯定理进行分类,因此我们从朴素贝叶斯分类器说起。
贝叶斯定理:
贝叶斯定理是概率论中一个比较重要的定理,在讲解贝叶斯定理之前,首先回顾一下贝叶斯定理的基础:条件概率和全概率公式。
- 条件概率:设
A,B 是两个事件,且P(A)>0 ,称
P(B|A)=P(AB)P(A)
为在事件A 发生的情况下事件B 发生的条件概率。
条件概率很容易理解。一般情况下,概率可以表示为事件所包含的基本事件数(表示为
当我们在求条件概率时,分母不再是
因为
- 全概率公式:设试验
E 的样本空间为S ,A 为E 的事件,B1,B2,...,Bn 为S 的一个划分,且P(Bi)>0(i=1,2,...n) ,则
P(A)=∑i=1nP(A|Bi)P(Bi)
全概率公式的证明也很简单:
介绍完上面两个公式,就可以引出贝叶斯公式:
- 设试验
E 的样本空间为S ,A 为E 的事件,B1,B2,...,Bn 为S 的一个划分,且P(Ai)>0,P(Bi)>0(i=1,2,...n) ,则
P(Bi|A)=P(A|Bi)P(Bi)∑nj=1P(A|Bj)P(Bj)
称为贝叶斯公式。
贝叶斯分类器
贝叶斯公式的直观意义显而易见:当我们得知了
朴素贝叶斯分类的定义如下:
1、设
2、有类别集合
3、计算
4、如果
计算
估计类别下特征属性划分的条件概率及Laplace校准
由上文看出,计算各个划分的条件概率
朴素贝叶斯算法的优缺点
优点:
1. 数学基础坚实,分类效率稳定,容易解释;
2. 所需估计的参数很少,对缺失数据不太敏感;
3. 无需复杂的迭代求解框架,适用于规模巨大的数据集。
缺点:
1. 属性之间的独立性假设往往不成立(可考虑用聚类算法先将相关性较大的属性进行聚类);
2. 需要知道先验概率,分类决策存在错误率。
朴素贝叶斯分类器是个非常简单的分类器,原理完全基于概率论中的贝叶斯定理,但是它的假设条件对于现实应用有些严苛,不过,这并不妨碍朴素贝叶斯分类器在垃圾邮件识别,不真实账号检测等领域发挥重大作用。用已故的统计学家George E. P. Box的话来说,就是:All models are wrong, but some are useful.