朴素贝叶斯是基于概率论的分类方法,主要步骤是:
1.利用Python的文本处理能力,将文档切分成词向量
2.从词向量计算概率,得到分类器
3.优化分类器
4.通过分类器进行分类
其中,计算概率是很关键的步骤,包括计算条件概率,下面总结一下关于条件概率的内容。
我们来举个小球的例子:现在有7个球如下图所示放在2个桶里。
(1)任取一球,取到的球出自B桶的概率是多少? 3/7
(2)从B桶中任取一球,取出灰球的概率是多少? 1/3
(3)任取一球,取到的球出自B桶且为灰球的概率是多少? 1/7
第三种情况是怎么求出的呢?是在第一种情况发生的条件下,再加上第二种情况发生的结果,就是第三种情况。所以,(3/7)*(1/3)=(1/7)在这里,(2)求得的就是条件概率,“从B桶中任取一球”说明了球必须是出自B桶的,用gray表示灰球,用B表示B桶,那么条件概率可以写成P(gray|B)。
同理,
(4)任取一球,取到灰球的概率是多少? 3/7
(5)已知取得灰球,该球出自B桶的概率是多少? 1/3
(6)任取一球,取到灰球且该球出自B桶的概率是多少? 1/7
第六种情况是怎么求出的呢?是在第四种情况发生的条件下,再加上第五种情况发生的结果,就是第六种情况。所以,(3/7)*(1/3)=(1/7)在这里,(5)求得的也是条件概率,“已知取得灰球”说明了球必须是灰色的,那么条件概率可以写成P(B|gray)。
上述情况中,(3)与(6)其实是一种结果,所以P(1)*P(2)=P(4)*P(5),可以得到两个条件概率之间的关系公式,也就是贝叶斯公式:
该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。
现在我们应用条件概率,把条件扩展开来,事物具有的某些特征可以看做是“条件概率”中的条件,比如数据点的x、y坐标,那么条件概率所代表的的意义就是:给定某个由x、y表示的点,该点来自类别C1的概率是多少?该点来自类别C2的概率又是多少?贝叶斯分类准则就是:
如果P(C1|x,y)> P(C2|x,y),那么属于类别C1。
如果P(C1|x,y)< P(C2|x,y),那么属于类别C2。
接下来可以研究分类了。
下一篇文章【机器学习】朴素贝叶斯-对文档进行分类