机器学习笔记之朴素贝叶斯

朴素贝叶斯

1 朴素贝叶斯为什么叫朴素贝叶斯？

因为这种方法是基于贝叶斯定理,顺便复习一下贝叶斯定理的表达式：

$P (B i | A) = P ( A | B i ) P ( B i ) \sum N j = 1 P ( A | B j ) P ( B j )$ $P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{N} P(A|B_j)P(B_j)}$
朴素贝叶斯法对条件概率分布作了条件独立性的假设，这是一个很强的假设，所以对应 “朴素” 二字。条件独立性假设 就是说用于分类的特征在类确定的条件下都是条件独立的。这个假设使得朴素贝叶斯变简单了，但也牺牲了一定的准确率， 条件独立性假设表达式：

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x n | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{align} P(X=x|Y=c_k) &= P(X^{(1)} = x^{(1)},\cdots,X^{(n)} = x^{n} | Y = c_k) \\ &= \prod_{j=1}^{n}P(X^{(j)} = x^{(j)}|Y=c_k) \end{align}$

2 朴素贝叶斯的学习与分类

2.1 学习方法

朴素贝叶斯法通过训练数据集学习联合概率分布 $P(X,Y)$ . 具体地：

学习先验概率分布：

$P (Y = c k), k = 1, 2, \dots, K$ $P(Y=c_k) , k = 1,2,\cdots,K$
学习条件概率分布:

$P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) | Y = c k), k = 1, 2, \dots, K$ $P(X=x|Y=c_k) = P(X^{(1)} = x^{(1)},\cdots,X^{(n)}|Y=c_k), k = 1,2,\cdots,K$

于是学习到联合概率分布 $P(X,Y)$ 。道理简单嘛，就是根据条件概率公式：

扫描二维码关注公众号，回复： 1099020 查看本文章

P (A B) = P (A | B) P (B) = P (B | A) P (A)

$P(AB) = P(A|B)P(B) = P(B|A)P(A)$

2.2 分类方法

朴素贝叶斯分类时，对给定的输入 $x$ ，通过学习到模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为 $x$ 的输出。后验概率计算根据贝叶斯定理进行：

P (Y = c k | X) = P ( X = x | Y = c k ) P ( Y = c k ) \sum K k P ( X = x | Y = c k ) P ( Y = c k )

$P(Y = c_k|X) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k^KP(X=x|Y=c_k)P(Y=c_k)}$

之前说过朴素贝叶斯“朴素”的原因就是对条件概率分布做了条件独立性的假设。所以我们把条件独立性假设的公式带入上式，得：

P (Y = c k | X) = P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum K k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k )

$P(Y = c_k|X) = \frac{P(Y=c_k)\prod_{j=1}^{n}P(X^{(j)} = x^{(j)}|Y=c_k)}{\sum_k^KP(Y=c_k)\prod_{j=1}^{n}P(X^{(j)} = x^{(j)}|Y=c_k)}$
于是就得到了朴素贝叶斯分类的基本公式。于是，朴素贝叶斯分类器可以表示为：

y = f (x) = a r g max c k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum K k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k )

$y = f(x) = arg\max_{c_k}\frac{P(Y=c_k)\prod_{j=1}^{n}P(X^{(j)} = x^{(j)}|Y=c_k)}{\sum_k^KP(Y=c_k)\prod_{j=1}^{n}P(X^{(j)} = x^{(j)}|Y=c_k)}$
注意到分母其实是一个归一化因子，对于所有的类别都是相同的可以，继续化简为：

y = f (x) = a r g max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y = f(x) = arg\max_{c_k}P(Y=c_k)\prod_{j=1}^{n}P(X^{(j)} = x^{(j)}|Y=c_k)$

2.3 后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。

为什么会等价于期望风险最小化？来看看推导

假设选择 $0-1$ 损失函数：
$L (Y, f (X)) = ⎧ ⎩ ⎨ ⎪ ⎪ 1, 0, Y \neq f (X) Y = f (X)$ $L(Y,f(X)) = \begin{cases} 1, & Y\neq f (X) \\[2ex] 0, & Y = f(X) \end{cases}$
式中 $f(X)$ 是分类决策函数，这时，期望风险函数为：
$R e x p = E [L (Y, f (X))]$ $R_{exp} = E[L(Y,f(X))]$
期望是联合分布 $P(X,Y)$ 取的，由此取条件期望：
$R e x p (f) = E x \sum k = 1 K [L (c k, f (X))] P (c k | X)$ $R_{exp}(f) = E_x\sum_{k=1}^K[L(c_k,f(X))]P(c_k|X)$
为了使期望风险最小化，只需要对 $X = x$ 逐个极小化，得：
$f (x) = a r g min y \in  \sum k = 1 K [L (c k, f (X))] P (c k | X) = a r g min y \in  \sum k = 1 K P (y \neq c k) P (c k | X) = a r g min y \in  (1 - P (y = c k | X)) = a r g max y \in  P (y = c k | X = x)$ $\begin{align} f(x) &= arg \min_{y\in \mathcal{Y}} \sum_{k=1}^K[L(c_k,f(X))]P(c_k|X) \\ &= arg \min_{y\in \mathcal{Y}} \sum_{k=1}^KP(y \neq c_k)P(c_k|X) \\ &= arg \min_{y\in \mathcal{Y}} (1 - P(y=c_k|X)) \\ &= arg \max_{y\in \mathcal{Y}}P(y=c_k|X = x) \end{align}$

这样就从期望风险最小化的角度出发导出了分类决策函数 $f(x)$ 是要使得后验概率最大。这也是朴素贝叶斯法的原理所在

3 朴素贝叶斯的参数估计

3.1 极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(j)} = x^{(j)}| Y = c_k)$ 。

1. 先验概率 $P(Y=c_k)$ 的极大似然估计是：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k) = \frac{\sum_{i=1}^{N} I(y_i = c_k)}{N} , k = 1,2,\cdots,K$

这个是怎么得到的? 下面我们来进行一个推导：

这其实就是一个二项分布求极大似然估计的问题

设 $P(Y = c_k) = p$ ，则 $P(Y \neq c_k) = 1-p$ ，令随机变量 $Z = 1$ 当 $Y=_ck$ 时， $Z = 0$ 当 $Y \neq c_k$ 时。那么将两部分概率整合到一起写成:
$P (Z = z i) = p z i (1 - p) (1 - z i), z i \in {0, 1}$ $P(Z=z_i) = p^{z_i}(1-p)^{(1-z_i)}, z_i \in\{0,1\}$
假设 $d = \sum_{i=1}^{N} I(y_i = c_k)$ ，也就是说 $N$ 个样本中标签是 $c_k$ 的样本一共有 $d$ 个,则整个训练集可以用一个 $0,1$ 向量来表示，其中 $y_i = c_k$ 则 $Z_i = 1$ 否则 $Z_i = 0$ ,则所有样本的联合概率分布为：
$P = p d (1 - p) N - d$ $P = p^d(1-p)^{N-d}$
对上式取对数：
$L (p) = d l o g p + (N - d) l o g (1 - p)$ $L(p) = dlogp + (N-d)log(1-p)$
求偏导令导数为0：
$\partial L \partial p = d p - N - d 1 - p = 0$ $\frac{\partial{L}}{\partial p} = \frac{d}{p} - \frac{N-d}{1-p} = 0$
解得 $p = \frac{d}{N}$ 取极值。

2. 条件概率的极大似然估计：
设第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 $\{a_{j1},\cdots,a_{jS_j}\}$ ,条件概率 $P(X^{(j)}=a_{jl} |Y=c_k)$ 的极大似然估计是：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( X ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{jl }|Y=c_k) = \frac{\sum_{i=1}^{N} I(X_i^{(j)} = a_{jl},y_i = c_k)}{\sum_{i=1}^{N} I(y_i = c_k)}$
推导方法和上面一样，这里不再赘述啦。

3.2 贝叶斯估计

用极大似然估计可能会出现索要估计的概率值为0的情况. 这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体的

1. 条件概率的贝叶斯估计是：

P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( X ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ

$P_\lambda(X^{(j)}=a_{jl }|Y=c_k) = \frac{\sum_{i=1}^{N} I(X_i^{(j)} = a_{jl},y_i = c_k) + \lambda}{\sum_{i=1}^{N} I(y_i = c_k) + S_j \lambda}$

其中 $\lambda \geq 0$ , 等价于在随机变量各个取值的频数上赋予一个正数，当 $\lambda = 0$ 时就是极大似然估计，常取 $\lambda = 1$ ，这时称为 拉普拉斯平滑
2. 先验概率的贝叶斯估计是：

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ

$P_\lambda(Y=c_k) = \frac{\sum_{i=1}^{N} I(y_i = c_k) + \lambda}{N + K\lambda}$