【机器学习】朴素贝叶斯(Naive Bayes)

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X) = P(X,Y)/P(X)得出。

朴素贝叶斯很直观,计算量也不大,在很多领域有广泛的应用,这里我们就对朴素贝叶斯算法原理做一个小结。

朴素贝叶斯相关的统计学知识

在了解朴素贝叶斯的算法之前,我们需要对相关必须的统计学知识做一个回顾。

贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。

贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。

我们先看看条件独立公式,如果X和Y相互独立,则有:

我们接着看看条件概率公式:

然后可以得到:

接着看看全概率公式:

其中

从上面的公式很容易得出贝叶斯公式:

朴素贝叶斯的模型

从统计学知识回到我们的数据分析。假如我们的分类模型样本是:

即我们有m个样本,每个样本有n个特征,特征输出有K个类别,定义为{C_1,C_2,...,C_K}

从样本我们可以学习得到朴素贝叶斯的先验分布P(Y=C_k)(k=1,2,...K),接着学习到条件概率分布P(X=x|Y=C_k) = P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k),然后我们就可以用贝叶斯公式得到X和Y的联合分布P(X,Y)了。联合分布P(X,Y)定义为:

从上面的式子可以看出P(Y=C_k)比较容易通过最大似然法求出,得到的P(Y=C_k)就是类别C_k在训练集里面出现的频数。但是P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)很难求出,这是一个超级复杂的有n个维度的条件分布。朴素贝叶斯模型在这里做了一个大胆的假设,即X的n个维度之间相互独立,这样就可以得出:

从上式可以看出,这个很难的条件分布大大的简化了,但是这也可能带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办?如果真是非常不独立的话,那就尽量不要使用朴素贝叶斯模型了,考虑使用其他的分类方法比较好。但是一般情况下,样本的特征之间独立这个条件的确是弱成立的,尤其是数据量非常大的时候。虽然我们牺牲了准确性,但是得到的好处是模型的条件分布的计算大大简化了,这就是贝叶斯模型的选择。

最后回到我们要解决的问题,我们的问题是给定测试集的一个新样本特征(x_1^{(test)}, x_2^{(test)}, ...,x_n^{(test)}),我们如何判断它属于哪个类型?

既然是贝叶斯模型,当然是后验概率最大化来判断分类了。我们只要计算出所有的K个条件概率P(Y=C_k|X=X^{(test)}),然后找出最大的条件概率对应的类别,这就是朴素贝叶斯的预测了。

朴素贝叶斯的推断过程

上面我们已经对朴素贝叶斯的模型也预测方法做了一个大概的解释,这里我们对朴素贝叶斯的推断过程做一个完整的诠释过程。

我们预测的类别C_{result}是使P(Y=C_k|X=X^{(test)})最大化的类别,数学表达式为:

由于对于所有的类别计算P(Y=C_k|X=X^{(test)})时,上式的分母是一样的,都是P(X=X^{(test)}),因此,我们的预测公式可以简化为:

接着我们利用朴素贝叶斯的独立性假设,就可以得到通常意义上的朴素贝叶斯推断公式:

朴素贝叶斯的参数估计

在上一节中,我们知道只要求出P(Y=C_k)P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n),我们通过比较就可以得到朴素贝叶斯的推断结果。这一节我们就讨论怎么通过训练集计算这两个概率

对于P(Y=C_k),比较简单,通过极大似然估计我们很容易得到P(Y=C_k)为样本类别C_k出现的频率,即样本类别C_k出现的次数m_k除以样本总数m

对于P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n),这个取决于我们的先验条件(训练数据):

a) 如果我们的X_j是离散的值,那么我们可以假设X_j符合多项式分布,这样得到P(X_j=X_j^{(test)}|Y=C_k)是在样本类别C_kX_j^{(test)}出现的频率。即:

其中m_k为样本类别C_k出现的次数,而m_{kj^{test}}为类别为C_k的样本中,第j维特征X_j^{(test)}出现的次数。某些时候,可能某些类别在样本中没有出现,这样可能导致P(X_j=X_j^{(test)}|Y=C_k)为0,这样会影响后验的估计,为了解决这种情况,我们引入了拉普拉斯平滑,即此时有:

其中\lambda为一个大于0的常数,常常取为1。O_j为第j个特征的取值个数。

b) 如果我们的X_j是非常稀疏的离散值,即各个特征出现概率很低,这时我们可以假设X_j符合伯努利分布,即特征X_j出现记为1,不出现记为0。即只要X_j出现即可,我们不关注X_j的次数。这样得到P(X_j=X_j^{(test)}|Y=C_k)是在样本类别C_k中,X_j^{(test)}出现的频率。此时有:

其中,X_j^{(test)}取值为0和1。

c) 如果我们我们的X_j是连续值,我们通常取X_j的先验概率为正态分布,即在样本类别C_k中,X_j的值符合正态分布。这样P(X_j=X_j^{(test)}|Y=C_k)的概率分布是:

其中\mu_k\sigma_k^2是正态分布的期望和方差,可以通过极大似然估计求得。\mu_k为在样本类别C_k中,所有X_j的平均值。\sigma_k^2为在样本类别C_k中,所有X_j的方差。对于一个连续的样本值,带入正态分布的公式,就可以求出概率分布了。

朴素贝叶斯算法过程

我们假设训练集为m个样本n个维度,如下:

共有K个特征输出类别,分别为{C_1,C_2,...,C_K},每个特征输出类别的样本个数为{m_1,m_2,...,m_K},在第k个类别中,如果是离散特征,则特征X_j各个类别取值为m_{jl}。其中l 取值为1,2,...,S_jS_j为特征j不同的取值数。

输出为实例X^{(test)}的分类。

算法流程如下:

    1) 如果没有Y的先验概率,则计算Y的K个先验概率:P(Y=C_k) = m_k/m,否则P(Y=C_k)为输入的先验概率。

    2) 分别计算第k个类别的第j维特征的第l个取值条件概率:P(X_j=x_{jl}|Y=C_k)

      a) 如果是离散值:

      \lambda可以取值为1,或者其他大于0的数字。

      b) 如果是稀疏二项离散值:

      此时l 只有两种取值。

      c) 如果是连续值不需要计算各个l 的取值概率,直接求正态分布的参数:

                     需要求出\mu_k\sigma_k^2。 \mu_k为在样本类别C_k中,所有X_j的平均值。\sigma_k^2为在样本类别C_k中,所有X_j的方差。

    3)对于实例X^{(test)},分别计算:

    4)确定实例X^{(test)}的分类C_{result}

     从上面的计算可以看出,没有复杂的求导和矩阵运算,因此效率很高

关于朴素贝叶斯还有一些注意点,移步贝叶斯整理有详解。

参考文章

朴素贝叶斯算法原理小结

猜你喜欢

转载自blog.csdn.net/qq_32742009/article/details/81810387
今日推荐