要了解朴素贝叶斯学习算法，我们先从贝叶斯决策论说起。

贝叶斯决策论

贝叶斯决策论是一种在概率框架下实施决策的基本方法，通过概率计算来训练学习模型，其基本思想非常简单。
具体来说，假设有N种可能的类别标记，即 $Y=\{c_1,c_2,c_3,\dots,c_N\}$ ， $\lambda_{ij}$ 是一个将真实标记为 $c_j$ 的样本误标记为 $c_i$ 所产生的损失，基于后验概率 $P(c_i|\vec{x})$ 可获得将样本 $\vec{x}$ 分类为 $c_i$ 所产生的期望损失，即在样本 $\vec{x}$ 上产生的“风险条件”：

R (c_{i} | \vec{x}) = \sum_{j = 1}^{N} λ_{i j} P (c_{j} | \vec{x})

$R(c_i|\vec{x})=\sum_{j=1}^{N}{\lambda_{ij}P(c_j|\vec{x})}$
我们的任务是，找到一个判断准则

h : X \to Y

$h:X\rightarrow Y$ 以最小化总体风险。

贝叶斯判断准则:为最小化总体风险，只需要在每个样本上选择那个能使条件风险 $R(c|\vec{x})$ 最小的标记类别，即

h^{*} (\vec{x}) = a r g m i n_{c \in Y} R (c | \vec{x})

$h^\ast(\vec{x})=argmin_{c\in Y}R(c|\vec{x})$ 此时，称

h^{*}

$h^\ast$ 为贝叶斯最优分类器。

若目标是最小化分类错误率，则误判损失 $\lambda{ij}$ 可写为:

λ_{i j} = {\begin{cases} 0 & i = j \\ 1 & i \neq j \end{cases}

$\lambda_{ij}=\begin{cases} 0 & i=j \\ 1 & i\neq j \\ \end{cases}$
此时，条件风险为

R (c | \vec{x}) = 1 - P (c | \vec{x})

$R(c|\vec{x})=1-P(c|\vec{x})$ ，于是，最小化分类错误率的贝叶斯最优分类器为

h^{*} (\vec{x}) = a r g m a x_{c \in Y} P (c | \vec{x})

$h^\ast(\vec{x})=argmax_{c\in Y}P(c|\vec{x})$
即对每个样本

\vec{x}

$\vec{x}$ ，选择能使后验概率

P (c | \vec{x})

$P(c|\vec{x})$ 最大的标记类别。
基于贝叶斯定理，

P (c | \vec{x})

$P(c|\vec{x})$ 可写为

P (c | \vec{x}) = \frac{P (\vec{x}, c)}{P (\vec{x})} = \frac{P (c) P (\vec{x} | c)}{P (\vec{x})}

$P(c|\vec{x})=\frac{P(\vec{x},c)}{P(\vec{x})}=\frac{P(c)P(\vec{x}|c)}{P(\vec{x})}$ 其中，

P (c)

$P(c)$ 是类先验概率，

P (\vec{x} | c)

$P(\vec{x}|c)$ 是样本

\vec{x}

$\vec{x}$ 相对于类标记c的类条件概率，或称为“似然”，

P (\vec{x})

$P(\vec{x})$ 是用于归一化的“证据”因子。此时，则有

h^{*} (\vec{x}) = a r g m a x_{c \in Y} P (c | \vec{x}) = a r g m a x_{c \in Y} \frac{P (c) P (\vec{x} | c)}{P (\vec{x})}

$h^\ast(\vec{x})=argmax_{c\in Y}P(c|\vec{x})=argmax_{c\in Y}{\frac{P(c)P(\vec{x}|c)}{P(\vec{x})}}$
可以看出，对于一个特定的样本

\vec{x}

$\vec{x}$ ，其分类结果只与

P (c)

$P(c)$ 和

P (\vec{x} | c)

$P(\vec{x}|c)$ 有关，此时问题便转化为通过训练集求出

P (c)

$P(c)$ 和

P (\vec{x} | c)

$P(\vec{x}|c)$ ，不同的求法便产生了不同的学习算法。

朴素贝叶斯

对于类先验概率 $P(c)$ ,直观上可以通过 $P (c) = \frac{| D_{c} |}{| D |}$ $P(c)=\frac{|D_c|}{|D|}$ 来求。
对于样本 $\vec{x}$ 的类条件概率 $P(\vec{x}|c)$ ，由于类条件概率 $P(\vec{x}|c)$ 是所有属性上的联合概率，当样本维度增加时，计算复杂度呈指数级增长，同时也难以从有限的训练样本直接估计得出。

因此，朴素贝叶斯分类器采用属性条件独立性假设：对已知类别，假设所有属性相互独立。在此假设下，

P (c | \vec{x} ） = \frac{P (c) P (\vec{x} | c)}{P \vec{x}} = \frac{P (c)}{P (\vec{x})} \prod_{i = 1}^{d} P (x_{i} | c)

$P(c|\vec{x}）=\frac{P(c)P(\vec{x}|c)}{P\vec{x}}=\frac{P(c)}{P(\vec{x})}\prod_{i=1}^d{P(x_i|c)}$ 其中，d为属性数目，

x_{i}

$x_i$ 为

\vec{x}

$\vec{x}$ 在第i个属性上的取值。
此时，朴素贝叶斯分类器的表达式为

h_{n b} (\vec{x}) = a r g m a x_{c \in Y} P (c) \prod_{i = 1}^{d} P (x_{i} | c)

$h_{nb}(\vec{x})=argmax_{c\in Y}P(c)\prod_{i=1}^d{P(x_i|c)}$ 显然，朴素贝叶斯分类器的训练过程就是基于训练集D来估计先验概率P(c）,并为每个属性估计条件概率

P (x_{i} | c)

$P(x_i|c)$ 。

注意事项

在具体问题中，很有可能出现 $P(x_i|c)=0$ 的情形，此时，便得到 $P(c)\prod_{i=1}^d{P(x_i|c)=0}$ ，显然，属性 $x_i$ 中未出现的属性值抹去了其他属性携带的信息，这是不合理的，因此常用“拉普拉斯修正”进行改进。令N表示训练集D中可能的类别数， $N_i$ 表示第i个属性可能的取值数，则有 $\hat{P} (c) = \frac{| D_{c} | + 1}{| D | + N}$ $\hat{P}(c)=\frac{|D_c|+1}{|D|+N}$ $\hat{P} (x_{i} | c) = \frac{| D_{c, x_{i}} | + 1}{| D_{c} | + N_{i}}$ $\hat{P}(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}$ “拉普拉斯修正”实质上假设了属性值与类别均匀分布。
可以看到，结果是一个连乘公式，且对于任意 $1 \leq i \leq d$ ，均有 $P(x_i|c)\in (0,1]$ ，当 $d$ 较大时，结果可能出现溢出。因此，常对其取log进行运算，公式变为 $\log P (c | \vec{x}) = \log P (c) - l o g P (\vec{x}) + \sum_{i = 1}^{d} \log P (x_{i} | c)$ $\log{P(c|\vec{x})}=\log{P(c)}-log{P(\vec{x})+\sum_{i=1}^{d}\log{P(x_i|c)}}$
$h_{n b} (\vec{x}) = a r g m a x_{c \in Y} （ \log P (c) + \sum_{i = 1}^{d} \log P (x_{i} | c) ）$ $h_{nb}(\vec{x})=argmax_{c\in Y} （\log{P(c)}+\sum_{i=1}^{d}\log{P(x_i|c)}）$

理论结合实践。为此，我编写了朴素贝叶斯方法的垃圾邮件分类器，适合初学者使用。

朴素贝叶斯学习算法原理

贝叶斯决策论

朴素贝叶斯

注意事项

猜你喜欢