在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数 $Y=f(X)$ ,要么是条件分布 $P(Y|X)$ 。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出Y和特征X的联合分布 $P(X,Y)$ ,然后用 $P(Y|X) = P(X,Y)/P(X)$ 得出。

朴素贝叶斯很直观，计算量也不大，在很多领域有广泛的应用，这里我们就对朴素贝叶斯算法原理做一个小结。

朴素贝叶斯相关的统计学知识

在了解朴素贝叶斯的算法之前，我们需要对相关必须的统计学知识做一个回顾。

贝叶斯学派很古老，但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾，但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。

贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率，可以通过先验概率和数据一起综合得到。数据大家好理解，被频率学派攻击的是先验概率，一般来说先验概率就是我们对于数据所在领域的历史经验，但是这个经验常常难以量化或者模型化，于是贝叶斯学派大胆的假设先验分布的模型，比如正态分布，beta分布等。这个假设一般没有特定的依据，因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑，但是在很多实际应用中，贝叶斯理论很好用，比如垃圾邮件分类，文本分类。

我们先看看条件独立公式，如果X和Y相互独立，则有：

$P(X,Y) =P(X)P(Y)$

我们接着看看条件概率公式：

$P(Y|X) = P(X,Y)/P(X)$

$P(X|Y) = P(X,Y)/P(Y)$

然后可以得到：

$P(Y|X) = P(X|Y)P(Y)/P(X)$

接着看看全概率公式：

$P(X) = \sum\limits_{k}P(X|Y =Y_k)P(Y_k)$ 其中 $\sum_kP(Y_k)=1$

从上面的公式很容易得出贝叶斯公式：

$P(Y_k|X) = \frac{P(X|Y_k)P(Y_k)}{\sum\limits_{k}P(X|Y =Y_k)P(Y_k)}$

朴素贝叶斯的模型

从统计学知识回到我们的数据分析。假如我们的分类模型样本是：

$(x_1^{(1)}, x_2^{(1)}, ...,x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, ...,x_n^{(2)},y_2), ... ,(x_1^{(m)}, x_2^{(m)}, ...,x_n^{(m)}, y_n)$

即我们有m个样本，每个样本有n个特征，特征输出有K个类别，定义为 ${C_1,C_2,...,C_K}$ 。

从样本我们可以学习得到朴素贝叶斯的先验分布 $P(Y=C_k)(k=1,2,...K)$ ,接着学习到条件概率分布 $P(X=x|Y=C_k) = P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ ,然后我们就可以用贝叶斯公式得到X和Y的联合分布P(X,Y)了。联合分布P(X,Y)定义为：

$\begin{align*} P(X,Y=C_k) &= P(Y=C_k)P(X=x|Y=C_k) \\&= P(Y=C_k)P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) \end{align*}$

从上面的式子可以看出 $P(Y=C_k)$ 比较容易通过最大似然法求出，得到的 $P(Y=C_k)$ 就是类别 $C_k$ 在训练集里面出现的频数。但是 $P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ 很难求出,这是一个超级复杂的有n个维度的条件分布。朴素贝叶斯模型在这里做了一个大胆的假设，即X的n个维度之间相互独立，这样就可以得出:

$\begin{align*} P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) = P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)...P(X_n=x_n|Y=C_k) \end{align*}$

从上式可以看出，这个很难的条件分布大大的简化了，但是这也可能带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办？如果真是非常不独立的话，那就尽量不要使用朴素贝叶斯模型了，考虑使用其他的分类方法比较好。但是一般情况下，样本的特征之间独立这个条件的确是弱成立的，尤其是数据量非常大的时候。虽然我们牺牲了准确性，但是得到的好处是模型的条件分布的计算大大简化了，这就是贝叶斯模型的选择。

最后回到我们要解决的问题，我们的问题是给定测试集的一个新样本特征 $(x_1^{(test)}, x_2^{(test)}, ...,x_n^{(test)})$ ，我们如何判断它属于哪个类型？

既然是贝叶斯模型，当然是后验概率最大化来判断分类了。我们只要计算出所有的K个条件概率 $P(Y=C_k|X=X^{(test)})$ ,然后找出最大的条件概率对应的类别，这就是朴素贝叶斯的预测了。

朴素贝叶斯的推断过程

上面我们已经对朴素贝叶斯的模型也预测方法做了一个大概的解释，这里我们对朴素贝叶斯的推断过程做一个完整的诠释过程。

我们预测的类别 $C_{result}$ 是使 $P(Y=C_k|X=X^{(test)})$ 最大化的类别，数学表达式为：

$\begin{align*} C_{result} & = \underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)}) \\& = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k) \Bigg{/}P(X=X^{(test)}) \end{align*}$

由于对于所有的类别计算 $P(Y=C_k|X=X^{(test)})$ 时，上式的分母是一样的，都是 $P(X=X^{(test)})$ ，因此，我们的预测公式可以简化为：

$C_{result} = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)$

接着我们利用朴素贝叶斯的独立性假设，就可以得到通常意义上的朴素贝叶斯推断公式:

$C_{result} = \underbrace{argmax}_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)$

朴素贝叶斯的参数估计

在上一节中，我们知道只要求出 $P(Y=C_k)$ 和 $P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$ ，我们通过比较就可以得到朴素贝叶斯的推断结果。这一节我们就讨论怎么通过训练集计算这两个概率。

对于 $P(Y=C_k)$ ,比较简单，通过极大似然估计我们很容易得到 $P(Y=C_k)$ 为样本类别 $C_k$ 出现的频率，即样本类别 $C_k$ 出现的次数 $m_k$ 除以样本总数 $m$ 。

对于 $P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$ ,这个取决于我们的先验条件（训练数据）：

a) 如果我们的 $X_j$ 是离散的值，那么我们可以假设 $X_j$ 符合多项式分布，这样得到 $P(X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中 $X_j^{(test)}$ 出现的频率。即：

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}}}{m_k}$

其中 $m_k$ 为样本类别 $C_k$ 出现的次数，而 $m_{kj^{test}}$ 为类别为 $C_k$ 的样本中，第 $j$ 维特征 $X_j^{(test)}$ 出现的次数。某些时候，可能某些类别在样本中没有出现，这样可能导致 $P(X_j=X_j^{(test)}|Y=C_k)$ 为0，这样会影响后验的估计，为了解决这种情况，我们引入了拉普拉斯平滑，即此时有：

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda}$

其中 $\lambda$ 为一个大于0的常数，常常取为1。 $O_j$ 为第 $j$ 个特征的取值个数。

b) 如果我们的 $X_j$ 是非常稀疏的离散值，即各个特征出现概率很低，这时我们可以假设 $X_j$ 符合伯努利分布，即特征 $X_j$ 出现记为1，不出现记为0。即只要 $X_j$ 出现即可，我们不关注 $X_j$ 的次数。这样得到 $P(X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中， $X_j^{(test)}$ 出现的频率。此时有：

$\begin{align*} P(X_j=X_j^{(test)}|Y=C_k) = P(X_j|Y=C_k)X_j^{(test)} + (1 - P(X_j|Y=C_k))(1-X_j^{(test)}) \end{align*}$

其中， $X_j^{(test)}$ 取值为0和1。

c) 如果我们我们的 $X_j$ 是连续值，我们通常取 $X_j$ 的先验概率为正态分布，即在样本类别 $C_k$ 中， $X_j$ 的值符合正态分布。这样 $P(X_j=X_j^{(test)}|Y=C_k)$ 的概率分布是：

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp\Bigg{(}-\frac{(X_j^{(test)} - \mu_k)^2}{2\sigma_k^2}\Bigg{)}$

其中 $\mu_k$ 和 $\sigma_k^2$ 是正态分布的期望和方差，可以通过极大似然估计求得。 $\mu_k$ 为在样本类别 $C_k$ 中，所有 $X_j$ 的平均值。 $\sigma_k^2$ 为在样本类别 $C_k$ 中，所有 $X_j$ 的方差。对于一个连续的样本值，带入正态分布的公式，就可以求出概率分布了。

朴素贝叶斯算法过程

我们假设训练集为m个样本n个维度，如下：

$(x_1^{(0)}, x_2^{(0)}, ...,x_n^{(0)}, y_0), (x_1^{(1)}, x_2^{(1)}, ...,x_n^{(1)},y_1), ... ,(x_1^{(m)}, x_2^{(m)}, ...,x_n^{(m)}, y_n)$

共有K个特征输出类别，分别为 ${C_1,C_2,...,C_K}$ ,每个特征输出类别的样本个数为 ${m_1,m_2,...,m_K}$ ,在第k个类别中，如果是离散特征，则特征 $X_j$ 各个类别取值为 $m_{jl}$ 。其中 $l$ 取值为 $1,2,...,S_j$ ， $S_j$ 为特征 $j$ 不同的取值数。