一 简介
朴素贝叶斯是基于概率论的一种分类方法,或者说是基于贝叶斯定理与特征条件独立假设的分类方法.该方法是用于分类问题,现实生活中用于病人的诊断,不当言论的分类等.由于其实现方法简单,计算效率高,所以应用还是比较广泛的.
二 概率模型
朴素贝叶斯就是一个概率模型, 再分类的过程中, 我们会计算这个样本属于每一个类别的概率, 然后求出其中的最大值, 最大值所对应的概率就是我们所确定的类.
2.1 概率公式
首先我们来看条件概率, 条件概率P(A|B), P(A|B)表示是在事件B发生的条件下, 条件A发生的概率.
也就可以得出
如果把A和B换成X和Y,是不是可以得到
考过 | 逛街 | 打游戏 | 学习 |
1 | 0 | 0 | 1 |
0 | 1 | 0 | 0 |
1 | 0 | 1 | 1 |
1 | 1 | 0 | 1 |
0 | 1 | 1 | 0 |
0 | 0 | 1 | 0 |
1代表考过, 逛街, 打游戏,学习. 0代表没考过,没逛街,没学习
这个表是说明是否考过和逛街,打游戏,学习之间的关系.
2.2 例子详解
这个表格很简单, 但是他和朴素贝叶斯有什么关系呢?那我们先来了解一下朴素是什么, 朴素可以理解为”无依无靠”, 没有任何的”关系网”. 举个例子, 一个样本X由
这就说明了以上各个属性之间是条件独立的.有了这样一个条件我们就可以对一个新的样本作出决策了, 让我们看一下上面那个例子.根据表格中的数据我们先计算一些先验概率:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
计算考过及没考过分别和三个属性的先验概率.
当有一个新来的样本,(逛街,打游戏,学习),我们怎样判断他是否能考过呢?
首先看(逛街,打游戏,学习)这是甚麽, 这是不是上面的X, 也就是属性啊. 我们判断他是否能考过, 也就是计算他的Y是甚麽,对吧. 一句话总结就是, 在知道这个人的个人喜好(X)前提下去判断他能否考过(Y), 这不就是让我们计算条件概率P(Y|X)啊.
我们就是要把上式中的Y替换为考过, X替换为(逛街,打游戏,学习)计算一下概率. 再把上式中的Y替换为没考过, X替换为(逛街,打游戏,学习)计算一下概率. 比较二者的大小, 就可以确定他是否能考过. 这是贝叶斯的关键.
这样我们把原来求P(Y|X)这个后验概率 转换为求X和Y的联合概率, 再把联合概率转换为先验概率P(Y|X)*P(Y), 除了P(Y|X)之外, 其它的数据我们是不是都已经求出来了啊? 直接像里面代数是不是就可以了. 当然是的啊. (注意我在公式中X和
请注意上面公式分母的P(X),
但是这也有一个问题, 就是在没考过这也情况下,
总结一下: 我罗嗦了那么多, 其实计算朴素贝叶斯就分三步.
第一: 计算先验概率, 先验概率包括
第二: 计算预测样本的概率
的值
第三: 在第二步中你已经计算出来了K个概率值, 比较这K个概率值的大小, 最大的概率值所属于的类别就为该样本的类别.
以上, 欢迎拍砖, 谢谢.