简介

朴素贝叶斯(naive Bayes)法师基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

先验概率：指以往经验和分析得到的概率，指人在未知条件下对事情发生的可能性的数学表示。
后验概率：事情已经发生，且发生的原因是由某个因素引起的可能性大小。
贝叶斯公式：

P (A | B) = \frac{P (A, B)}{P (B)} = \frac{P (B | A) * P (A)}{P (B | A) * P (A) + P (B | C) * P (C)}

$P(A|B) = \frac{P(A,B)}{P(B)} = \frac{P(B|A)*P(A)}{P(B|A)*P(A)+P(B|C)*P(C)}$
其中下面的分母是P(B)的全概率展开式。
全概率公式：事件组

B_{1}, B_{2} . .

$B_1,B_2..$ 满足两两互斥且并集是一个空间，则对于任意的事件A，有：

P (A) = \sum_{i = 1}^{\infty} P (B_{i}) P (A | B_{i})

$P(A)=\sum_{i=1}^{\infty}P(B_i)P(A|B_i)$

朴素贝叶斯法的学习与分类

基本方法

假设输入空间 $X \subseteq R^n$ 为n维向量的集合，输出空间为类标记集合 $Y={c_1,c_2,...c_k}$ 。 $P(X,Y)$ 是X和Y的联合概率分布，训练数据集x，y对由独立同分布产生。

朴素贝叶斯法通过训练数据学习联合概率分布 $P(X,Y)$ ，具体的，学习以下概率分布：
- 先验概率分布

\begin{matrix} (4.1) & P (Y = c_{k}), k = 1, 2, . . ., K \end{matrix}

$P(Y=c_k),\ k=1,2,...,K \tag{4.1}$
- 条件概率分布

\begin{matrix} (4.2) & P (X = x | Y = c_{k}) = P (X^{(1)} = x^{(1)}, . . ., X^{(n)} = x^{(n)} | Y = c_{k}), k = 1, 2, . . . K \end{matrix}

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k),\ k=1,2,...K \tag{4.2}$
于是学习到联合概率分布

P (X, Y)

$P(X,Y)$ ，其中条件概率分布

P (X = x | Y = c_{k})

$P(X=x|Y=c_k)$ 有指数级别的参数，其估计实际是不可行的。假设

x^{(} j)

$x^(j)$ 可能值有

S_{j}

$S_j$ 个，j=1,2,….n, Y可能取址有K个，那么参数的个数为

K \prod_{j = 1}^{n} S_{j}

$K \prod_{j=1}^{n} S_j$

条件独立性假设是：

\begin{matrix} (4.3) & \begin{aligned} P (X = x | Y = c_{k}) & = P (X^{(1)} = x^{(1)}, . . ., X^{(n)} = x^{(n)} | Y = c_{k}) \\ = \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k}) \end{aligned} \end{matrix}

$\begin{aligned} P(X=x|Y=c_k) &=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k) \\ &= \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned} \tag{4.3}$

朴素贝叶斯法实际上学习到生成数据的机制，属于生成模型，条件独立假设等于说用于分类的特征在类确定的条件下都是条件独立的。分类时，对于给定的输入x，通过学习到的模型计算后延概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类最为x的类输出，后验概率计算根据贝叶斯定理进行：

\begin{matrix} (4.4) & P (Y = c_{k} | X = x) = \frac{P (X = x | Y = c_{k}) P (Y = c_{k})}{\sum_{k} P (X = x | Y = c_{k}) P (Y = c_{k})} \end{matrix}

$P(Y=c_k|X=x)= \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x|Y=c_k)P(Y=c_k)} \tag{4.4}$

将(4.3)代入(4.4)有就得到了朴素贝叶斯法的基本公式，取其中的最大值，则朴素贝叶斯分类器就可以表示为：

\begin{matrix} (4.6) & y = f (x) = \underset{c_{k}}{a r g m a x} \frac{P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})}{\sum_{k} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})} \end{matrix}

$y = f(x)= \underset{c_k}{argmax}\ \frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k}P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)} \tag{4.6}$

其中式子(4.6)中分母对所有的 $c_k$ 都是相同的，所以：

\begin{matrix} (4.7) & y = \underset{c_{k}}{a r g m a x} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k}) \end{matrix}

$y = \underset{c_k}{argmax}\ P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k) \tag{4.7}$

后验概率最大化含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。假设选择0-1损失函数：

L (Y, f (X)) = {\begin{aligned} 1, Y \neq f (x) \\ 0, Y = f (x) \end{aligned}

$L(Y,f(X))=\left\{ \begin{aligned} 1, Y\ne f(x) \\ 0, Y = f(x) \\ \end{aligned}\right.$
其中f(X)是分类决策函数，这时，期望风险函数为：

R_{e x p} (f) = E [L (Y, f (X))]

$R_{exp}(f) = E[L(Y,f(X))]$
期望是对联合分布P(X,Y)取得，由此取 条件期望：

R_{e x p} (f) = E_{X} \sum_{k = 1}^{K} [L (c_{k}, f (X))] P (c_{k} | X)

$R_{exp}(f) = E_X \sum_{k=1}^K [L(c_k,f(X))]P(c_k |X)$
为了使得期望风险最小化，只需对X=x逐个最小化，由此得到：

\begin{aligned} f (x) & = \underset{y \in Y}{a r g m i n} \sum_{k = 1}^{K} L (c_{k}, y) P (c_{k} | X = x) \\ = \underset{y \in Y}{a r g m i n} \sum_{k = 1}^{K} P (y \neq c_{k} | X = x) \\ = \underset{y \in Y}{a r g m i n} (1 - P (y = c_{k} | X = x)) \\ = \underset{y \in Y}{a r g m a x} P (y = c_{k} | X = x) \end{aligned}

$\begin{aligned} f(x) &= \underset{y \in Y}{argmin} \sum_{k=1}^K L(c_k,y)P(c_k | X=x)\\ &= \underset{y \in Y}{argmin} \sum_{k=1}^K P(y \neq c_k | X=x)\\ &= \underset{y \in Y}{argmin}(1- P(y = c_k | X=x))\\ &= \underset{y \in Y}{argmax} P(y=c_k | X=x) \end{aligned}$
这样一来，根据期望风险最小化准则就得到了后验概率最大化准则,即朴素贝叶斯法所采用的原理：

f (x) = \underset{y \in Y}{a r g m a x} P (c_{k} | X = x)

$f(x) = \underset{y \in Y}{argmax} P(c_k|X=x)$

注：现对上面用到的两个概念作解释：
- 损失函数期望公式：
损失函数越小，模型就越好，模型遵循联合分布 $P(X,Y)$ ，所以损失函数的期望为：

R_{e x p} (f) = E_{p} [L (Y, f (X))] = \int_{x \times y} L (y, f (x)) P (x, y) d x d y

$R_{exp}(f) = E_p [L(Y,f(X))] = \int_{x\times y} L(y,f(x))P(x,y)dxdy$
这是理论模型

f (x)

$f(x)$ 关于联合分布

P (X, Y)

$P(X,Y)$ 的平均意义下的损失称为风险函数或者期望损失。
然后应用到上面的期望风险函数可以将

R_{e x p} (f) = E [L (Y, f (X))]

$R_{exp}(f) = E[L(Y,f(X))]$ 凑成如下的公式：

R_{e x p} (f) = E [L (Y, f (X))] = \int_{x} (\int_{y} L (Y, f (X)) p (y (x)) d y) p (x) d x

$R_{exp}(f) = E[L(Y,f(X))]=\int_{x} (\int_{y} L(Y,f(X)) p(y(x))dy) p(x) dx$
其中的dy积分项就是条件期望。

条件期望最小化推导
其中 $c_k$ 为模型的输出类，y为真实类，对于一个确定的输入X=x，判断输出类为哪一个时损失期望最小，由于使用的是0-1风险函数，所以损失函数等价于模型错误输出概率。

朴素贝叶斯法的参数估计

极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(j)} =x^{(j)}|Y=c_k)$ ，可以用极大似然估计法估计相应的概率。设第j个特征 $x^{(j)}$ 可能的取值的集合为{a_j1,a_j2,…,a_{jS_j}}。
- 先验概率 $P(Y=c_k)$ 的极大似然估计是：

\begin{matrix} (4.8) & P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N}, k = 1, 2, . . . K \end{matrix}

$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N} \ ,k=1,2,...K \tag{4.8}$
- 条件概率

P (X^{(j)} = a_{j l} | Y = c_{k})

$P(X^{(j)} =a_{jl}|Y=c_k)$ 的极大似然估计是

\begin{matrix} (4.9) & P (X^{(j)} = x^{(j)} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})} j = 1, 2, . . ., n; l = 1, 2, . . ., S_{j}; k = 1, 2, . . ., K \end{matrix}

$P(X^{(j)} =x^{(j)}|Y=c_k) = \frac{ \sum^N _{i=1}I(x^{(j)}_i = a_{jl},y_i = c_k) }{\sum ^N _{i=1}I(y_i=c_k)} \\ j=1,2,...,n;l=1,2,...,S_j;k = 1,2,...,K\tag{4.9}$
其中

x_{i}^{(j)}

$x_i^{(j)}$ 是第i个样本的第j个特征；

a_{j l}

$a_{jl}$ 是第j个特征可能取得第l个值；I为指示函数。

学习与分类算法

朴素贝叶斯算法(naive Bayes algorithm)

输入：训练数据对T，其中 $x_i^{(j)}$ 是第i个样本的第j个特征， $x_i^{(j)} \in {{a_j1,a_j2,...,a_{jS_j}}}$ ， $a_{jl}$ 是第j个特征的第l个值。
输出：实例x的分类

（1）计算先验概率及条件概率
$P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N}, k = 1, 2, . . . K$ $P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N} \ ,k=1,2,...K$
$P (X^{(j)} = a_{(j l)} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})}$ $P(X^{(j)} =a_{(jl)}|Y=c_k) = \frac{ \sum^N _{i=1}I(x^{(j)}_i = a_{jl},y_i = c_k) }{\sum ^N _{i=1}I(y_i=c_k)}$
（2）对于给定的实例 $x=(x^{(1)},x^{(2)},...,x^{(n)})^T$ ，计算
$P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})$ $P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)$
（3）确定实例x的类
$y = \underset{c_{k}}{a r g m a x} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})$ $y = \underset{c_k}{argmax}\ P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)$

贝叶斯估计

用极大似然估计肯能会出现估计的概率为0的情况，这会影响到后验概率的计算。解决这一问题的方法是采用贝叶斯估计，条件概率的贝叶斯估计是：

\begin{matrix} (4.10) & P_{λ} (X^{(j)} = a_{(j l)} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + S_{j} λ} \end{matrix}

$P_\lambda (X^{(j)} =a_{(jl)}|Y=c_k) = \frac{ \sum^N _{i=1}I(x^{(j)}_i = a_{jl},y_i = c_k) +\lambda}{\sum ^N _{i=1}I(y_i=c_k)+ S_j \lambda} \tag{4.10}$
其中

λ \geq 0

$\lambda \geq 0$ ，等价于在随机变量各个取值的频数上赋予一个正数

λ > 0

$\lambda >0$ ，当

λ = 0

$\lambda =0$ 时就是极大似然估计，常取

λ = 1

$\lambda =1$ ，这时称为 拉普拉斯平滑，对于任何的

l = 1, 2, . . ., S_{j} ， k = 1, 2, . ., K

$l=1,2,...,S_j，k=1,2,..,K$ ，有

P_{λ} (X^{(j)} = a_{j l} | Y = c_{k}) > 0 \sum_{l = 1}^{S_{j}} P (X^{(j)} = a_{j l} | Y = c_{k}) = 1

$P_{\lambda}(X^{(j)}=a_{jl} |Y=c_k) >0\\ \sum^{S_j}_{l=1}P(X^{(j)} = a_{jl}|Y = c_k) =1$
表明式子(4.10)确实为一种概率分布，同样， 先验概率的贝叶斯估计是

\begin{matrix} (4.11) & P_{λ} (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + λ}{N + K λ} \end{matrix}

$P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+K \lambda} \tag{4.11}$

小结

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P(X,Y)$ ，然后求得后验概率分布 $P(Y|X)$ ，概率估计方法可以是极大似然估计或贝叶斯估计。
朴素贝叶斯的基本假设是条件独立性。这一假设使得模型包含的条件概率的数量大为减少，使得它简化。因此朴素贝叶斯比较高效，易于实现，但是分类的性能不一定很高。
朴素贝叶斯利用贝叶斯定理和学到的联合概率模型进行分类预测。将输入x分到后验概率最大的类y，后验概率最大等价于0-1损失函数时的期望风险最小化。

统计学习方法笔记——朴素贝叶斯法

简介