机器学习-朴素贝叶斯原理

朴素贝叶斯

我们的分类模型中有M个样本，每个样本有N维，输出的类别有C类。
样本例如 $(X_1^1,X_2^1,X_3^1...X_n^1,Y_1)$ $(X_1^2,X_2^,X_3^2...X_n^2,Y_2)$ ，从样本中我们可以得到先验概率 $P(Y)$ (K=1,2…C)及条件概率 $P(X|Y)$ ，然后得到联合概率为： $P(XY)$ ，定义联合概率为

P (X Y) = P (Y = C_{k}) * P (X = x | Y = C_{k}) = P (Y = C_{k}) * P (X = (x_{1}, x_{2}, . . . x_{n}) | Y = C_{k})

$P(XY) =P(Y=C_k)*P(X=x|Y=C_k)\\= P(Y=C_k)* P(X=(x_1,x_2,...x_n)|Y=C_k)$

朴素贝叶斯假设

在这里我们假设X的n个维度之间互相独立，得到

P (X = (x_{1}, x_{2}, . . . x_{n}) | Y = C_{k}) = P (X_{1} = x_{1} | Y = C_{k}) P (X_{2} = x_{2} | Y = C_{k}) * P (X_{n} = x_{n} | Y = C_{k})

$P(X=(x_1,x_2,...x_n)|Y=C_k)=P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)*P(X_n=x_n|Y=C_k)$

朴素贝叶斯原理

C_{r e s l u t} = a r g m a x P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)}

$C_{reslut} =argmax\;P(Y|X)={P(X|Y)*P(Y)\over P(X)}$
其中

P (Y = C_{k})

$P(Y=C_k)$ 是类别在训练集中中出现的频数，及

P (Y = C_{k}) = \frac{m_{c} k}{m}

$P(Y=C_k)={m_ck \over m}$ 其中

m_{c k}

$m_{ck}$ 是类别K出现的次数。
上式中由于分母都一样都是

P (X)

$P(X)$ ，那么只要计算分子最大化即可。及

C_{r e s l u t} = a r g m a x P (Y | X) = P (X | Y) * P (Y)

$C_{reslut} =argmax\;P(Y|X)={P(X|Y)*P(Y)}$ 由于朴素贝叶斯的独立性，得到新的计算公式

C_{r e s l u t} = a r g m a x P (Y | X) = P (Y) * \prod_{j = 1}^{n} P (X = x_{j} | Y = C_{k})

$C_{reslut} =argmax\;P(Y|X)={P(Y)*\prod_{j=1}^nP(X=x_j|Y=C_k)}$
对于

P (X_{j} = x_{j α} | Y = C_{k}) (j = 1, 2, 3... n)

$P(X_j=x_{j\alpha}|Y=C_k) \; (j=1,2,3...n)$ ,对于输入样本的每一特征个数不同，我们这里默认每一个特征的选择都是是特征

α

$\alpha$ . 对于后验概率中需要后验的就是对于每一个特征的不同选择。
在这里对于每个特征的的不同输入值有三种计算方案：
- 如果该特征是离散值：

P (X_{j} = x_{j α} | y = C_{k}) = \frac{x_{j α} + λ}{m_{k} + n λ}

$P(X_j =x_{j\alpha}|y=C_k)=\;{x_{j\alpha}+\lambda\over{m_k+n\lambda} }$
其中

λ

$\lambda$ 是拉普拉斯平滑参数
- 是稀疏的二项式离散值：

P (X_{j} = x_{j α} | y = C_{k}) = P (j | Y = C_{k}) X_{j α} + (1 - P (j | Y = C_{k})) (1 - X_{j α})

$P(X_j =x_{j\alpha}|y=C_k)=\;P(j|Y=C_k)X_{j\alpha}+(1-P(j|Y=C_k))(1-X_{j\alpha})$
其中

X_{j α}

$X_{j\alpha}$ 取值为0,1。

P (j | y = C_{K})

$P(j|y=C_K)$ 为在类别为K是第j维特征出现的概率
- 该特征是连续值，认为

X_{j}

$X_j$ 在类别

C_{k}

$C_k$ 中为正态分布

P (X_{j} = x_{j α} | y = C_{k}) = \frac{1}{\sqrt{2 π σ_{k}^{2}}} * \frac{- (X_{j} - μ_{k})^{2}}{2 σ_{k}^{2}}

$P(X_j =x_{j\alpha}|y=C_k)=\;{1\over{\sqrt{2\pi\sigma_k^2}}}*{-{(X_j-\mu_k)^2}\over2\sigma_k^2}$
其中

σ_{k}^{2}

$\sigma_k^2$ 是在样本

C_{k}

$C_k$ 中所有的可取值的方差，

μ_{k}

$\mu_k$ 是在样本

C_{k}

$C_k$ 中所有可取值的均值（对于该样本的该特征我们的取值是

α

$\alpha$ 及

x_{j α}

$x_{j\alpha}$ ，对于该特征值的取值为连续函数值）

算法过程

训练集m个样本，n个维度，输出类别有k类，每一个类别的个数有 $m_1,m_2,...m_k$ 。
- 计算类别的先验概率 $P(Y=C_k)={m_k \over m}$
- 计算第k个类别的第j维特征取值为 $\alpha$ 时的条件概率 $P(X_{j\alpha}|Y=Y_k)$ 其中 $\alpha$ 是要求的样本的第j维特征的取值，这个是需要在后验中给出的。
- 由于贝叶斯假设性，我们可以得到

P (X | Y) = \prod_{j = 1}^{n} P (X_{j} | Y = C_{k})

$P(X|Y)=\prod_{j=1}^nP(X_j|Y=C_k)$ 那么对于输入样本X的分类

C_{r e s u l t}

$C_{result}$ 的结果是

C_{r e s u l t} = a r g m a x \prod_{j = 1}^{n} P (X_{j} | Y = C_{k}) * P (Y = C_{k})

$C_{result}=argmax\;\prod_{j=1}^nP(X_j|Y=C_k)*P(Y=C_k)$

算法小结

对于小规模数据表现良好，处理多分类问题
对于缺失值不敏感，常用于文本分类
但需要知道先验概率，而且是通过数据提供的后验数据（就是样本在每个特征上的取值）及先验决定分类，如果先验有问题（数据不平均差距很大)时有错误