机器学习理论学习:朴素贝叶斯

最近一直在看《统计学习方法》,打算先把理论搞明白,后续将着重用c++实现下自己ml库,计划就是这样,好好干吧。其实在平常中使用这个算法比较少,但他主要的优势是在少量,几十或几百张样本的情况下,都能表现得非常好。但如果你有大量得数据几千以上得话,这个算法你可以尝试一下,毕竟她得运行速度比较快。另外,相对于其他机器学习算法,这种概率模型得可解释性非常好,简单说就是容易理解。关于朴素贝叶斯有好多种分支,如高斯、多项式等,也有好多评价方法,如布里尔、对数似然函数以及还可以通过可靠性曲线来评估等,毕竟朴素贝叶斯得可调参数太少了,所以,如果你想用朴素贝叶斯,但苦于没啥可调得,可以尝试可靠性曲线校正,也许有意外惊喜啊,这你不多作介绍,有兴趣得可以自己研究。废话不多说,直接开始吧。


目录

一、概述

二、朴素贝叶斯的学习与分类

三、朴素贝叶斯法的参数估计

 3.1、朴素贝叶斯算法

四、探索贝叶斯:贝叶斯样本的不均衡问题


朴素贝叶斯是根据贝叶斯定理和特征条件独立的分类方法。对于给定数据集,首先会根据特征条件独立的假设计算输入输出联合概率分布,然后基于此模型,对给定的输入,利用贝叶斯定理求出后验概率最大化输出。这里需要说明的是,朴素贝叶斯算法的前提条件是特征之间条件独立,如果特征之间有相互关系,那么该算法效果也不怎么样。同时,对于高维特征,贝叶斯算法只需很少数据下也能表现的很好,而且速度快。对于PCA等降维处理后的特征,其内部本身也存在一定的关联,这种特征也不适用与朴素贝叶斯算法。

一、概述

朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督学习算法,是一种专注分类的算法。朴素贝叶斯的算 法根源就是基于概率论和数理统计的贝叶斯理论,因此它是根正苗红的概率模型。接下来,我们就来认识一下这个简单快速的概率算法。

朴素贝叶斯被认为是最简单的分类算法之一。首先,我们需要了解一些概率论的基本理论。假设有两个随机变量X和 Y,他们分别可以取值为x和y。有这两个随机变量,我们可以定义两种概率:

关键概念:联合概率和条件概率

扫描二维码关注公众号,回复: 12969220 查看本文章

联合概率:X取值为x和Y取值为y同时发生的概率,表示为:P(X=x,Y=y)

条件概率:在X取值x的条件下Y取值为y的概率,表示为:P(Y=y|X=x)

举个例子,我们让X为"气温",Y为“七星瓢虫冬眠”,则X和Y可能的取值分为别x和y,其中x = {0,1},0表示没有下降到 0度以下,1表示下降到了0度以下。y = {0,1},其中0表示否,1表示是。 两个事件分别发生的概率就为:

  • P(X=1)=50%,则是说明,气温下降到0度以下的可能性为50%,则P(X=0)=50%。
  • P(Y=1)=70%,则是说明,七星瓢虫会冬眠的可能性为70%,则P(Y=0)=30%。

则这两个事件的联合概率为P(X=1,Y=1),这个概率代表了气温下降到0度以下和七星瓢虫去冬眠这两件事情同时,独立发生的概率

而两个事件之间的条件概率为P(Y=1|X=1),这个概率代表了,当气温下降到0度以下这个条件被满足之后,七 星瓢虫会去冬眠的概率。也就是说,气温下降到0度以下,一定程度上影响了七星瓢虫去冬眠这个事件。 在概率论中,我们可以证明,两个事件的联合概率等于这两个事件任意条件概率 * 这个条件事件本身的概率。

简单一些,则可以将上面的式子写成:

由上面的式子,我们可以得到贝叶斯理论等式:

而这个式子,就是我们一切贝叶斯算法的根源理论。我们可以把我们的特征X当成是我们的条件事件,而我们要求解的标签Y当成是我们被满足条件后会被影响的结果,而两者之间的概率关系就是P(Y|X),这个概率在机器学习中被我们称之为是标签的后验概率(posterior probability),即是说我们先知道了条件,再去求解结果。而标签Y在没有任何条件限制下取值为某个值的概率,被我们写作P(Y),与后验概率相反,这是完全没有任何条件限制的,标签的先验概率(prior probability)。而我们的P(X|Y)被称为“类的条件概率”,表示当Y的取值固定的时候,X为某 个值的概率。那现在,有趣的事情就出现了。

二、朴素贝叶斯的学习与分类

 假设输出类的标签为y={c1,c2,..ck},输入特征为X,训练数据集为T={(X1,y1),(X2,y2),...,(Xn,yn)},则条件概率分布:

对于贝叶斯定理得分子P(X|Y),因为朴素贝叶斯对条件概率分布做了条件独立的假设(这也是朴素贝叶斯法的由来)。所以,根据条件独立假设,我们可以写为:

对于贝叶斯定理得分母P(X),我们可以使用全概率公式来计算P(X):

 因此,朴素贝叶斯法分类时,对于给定的输入x,通过学习得到的模型计算后验概率分布P(Y=ck|X=x),将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行:

将条件独立假设带入得:

 于是贝叶斯分类器可以表示为:

对于这个式子来说,从训练集中求解P(Y=ck)很容易,但P(X)和P(X|Y)这一部分就没有这么容易了。在我们的例子中,我们通过全概率公式来求解分母,两个特征就求解了四项概率。随着特征数目的逐渐变多,分母上的计算两会成指数级增长,而分子中的P(X|Y)也越来越难计算。

在实际计算分类的时候,比较两个类别的时候,两个概率计算的分母是一致的,因此我们可以不用计算分母,只考虑分子的大小。当我们分别计算出分子的大小之后,就可以通过让两个分子相加,来获得分母的值,以此来避免计算一个样本上所有特征下的概率。这个过程,被我们称为“最大后验估计”(MAP)。在最大后验估计中,我们只需要求解分子,主要是求解一个样本下每个特征取值下的概率 ,再求连乘便能够获得相应的概率。

这里,我们可以先来看一个例子,看完之后我们就会明白到底怎么进行分类了。

索引

温度(X1)

瓢虫得年龄(X2)

瓢虫冬眠(Y)

0

零下

10天

1

零下

20天

2

零上

10天

3

零下

一个月

4

零下

20天

5

零上

两个月

6

零下

一个月

7

零下

两个月

8

零上

一个月

9

零上

10天

10

零下

20天

 此时,我们希望预测零下的时候,年龄为20天的瓢虫,是否会冬眠。

 对于分子我们可以求得:

对于分母我们可以求得:

 设定阈值为0.5,假设大于0.5的就被认为是会冬眠,小于0.5的就被认为是不会冬眠。根据我们的计算,我们认为一个在零下条件下,年龄为20天的瓢虫,是不会冬眠的。这就完成了一次预测。

三、朴素贝叶斯法的参数估计

从上节可以看出,如果要进行朴素贝叶斯估计,那么就需要计算P(Y)以及P(X|Y)。可以使用极大似然估计相应的概率。先验概率P(Y=ck)的极大似然估计为:

换句话说,我们可以直接计算样本标签为Ck占总样本数量的比例,这样就得到P(Y)的概率分布。

假设第j个特征xj的可能取值集合为{aj1,aj2,...,ajn},那么条件概率P(Xj=ajl|Y=ck)的极大似然估计为:

式中,Xij是第i个样本第j个特征;ajl是第j个特征的可能取值第l个值;I()为指示函数。

从上式可以看出,计算条件概率函数P(Xj=ajl|Y=ck)其实即使找到在Y=ck标签下,某个特征中其特征值等于ajl所占的比例。

 3.1、朴素贝叶斯算法

输入:训练数据集

输出:实例x的分类

  • 计算先验概率和条件概率

先验概率:

条件概率:

  • 对于给定的实例x=(x1,x2,...xn)计算

  • 确定下得类别

四、探索贝叶斯:贝叶斯样本的不均衡问题

补集朴素贝叶斯(complement naive Bayes,CNB)算法是标准多项式朴素贝叶斯算法的改进。CNB的发明小组创造出CNB的初衷是为了解决贝叶斯中的“朴素”假设带来的各种问题,他们希望能够创造出数学方法以逃避朴素贝叶斯中的朴素假设,让算法能够不去关心所有特征之间是否是条件独立的。以此为基础,他们创造出了能够解决样本不平衡问题,并且能够一定程度上忽略朴素假设的补集朴素贝叶斯。在实验中,CNB的参数估计已经被证明比普通多项式朴素贝叶斯更稳定,并且它特别适合于样本不平衡的数据集。有时候,CNB在文本分类任务上的表现有时能够优于多项式朴素贝叶斯,因此现在补集朴素贝叶斯也开始逐渐流行。关于补集朴素贝叶斯具体是如何逃避了我们的朴素假设,或者如何让我们的样本不均衡问题得到了改善,背后有深刻的数学原理和复杂的数学证明过程,大家如果感兴趣可以参阅这篇论文:

Rennie, J. D., Shih, L., Teevan, J., & Karger, D. R. (2003). Tackling the poor assumptions of naive bayes textclassifiers. In ICML (Vol. 3, pp. 616-623).

简单来说,CNB使用来自每个标签类别的补集的概率,并以此来计算每个特征的权重。

其中j表示每个样本,xij表示在样本 上对于特征i的下的取值,在文本分类中通常是计数的值或者是TF-IDF值。a是像标准多项式朴素贝叶斯中一样的平滑系数。可以看出,这个看似复杂的公式其实很简单,其实指的就是,一个特征i下,所有标签类别不等于c值的样本的特征取值之和。而其实就是,所有特征下,所有标签类别不等于c值得样本的特征取值之和。其实就是多项式分布的逆向思路。 

参考文献:

《统计学习方法》第2版 

朴素贝叶斯算法原理小结

猜你喜欢

转载自blog.csdn.net/wxplol/article/details/105660608
今日推荐