【机器学习算法】朴素贝叶斯法

朴素贝叶斯法对条件概率分布作了条件独立性假设，条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
这一假设使朴素贝叶斯变得简单。

1.学习与分类

朴素贝叶斯法实际上是学习到生成数据的机制，所以属于生成模型。

2.参数估计

2.1 极大似然估计

K 为：K为c的所有可能情况的数目
$S_j$ 为：特征的可能出现的所有情况
可以应用极大似然估计法估计相应的概率，先验概率 $P(Y=C_k)$ 和 $P（X^{(j)}=x^{(j)}|Y=c_k）$ ，可以应用极大似然估计法估计相应的概率，先验概率的极大似然估计是：
$P(Y = c_k) = \frac{\sum_{i=1}^{N}I(y_i = c_k)}{N},k = 1,2,...,K$
设第j个特征 $x^(j)$ 可能取值的集合为{a_{j1},a_{j2},a_{js_j}},条件概率 $P(X^{(j)} = a_{j,i}|Y = c_k)$ 的极大似然估计是：
$P(X^{(j)} = a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N} I(x^{(j)}_i = a_{jl}, y_j=c_k)}{\sum_{i=1}^{N}I(y_i = c_k)}, j = 1,2,...,n; l = 1,2,...,S_j；k = 1,2,...,K$
$a_{jl}$ 是第j个特征可能取得第I个值；I为指示函数(sigmoid函数类型相同的)

2.3 学习与分类算法

1）计算先验概率以及条件概率
2）对于给定的实例 $x = (x^{(1)}，x^{(1)}，x^{(1)})^T$ ，计算
3）确定实例的类：
$y = arg max P(Y=c_k)\prod_{j=1}^{n}P(X^{(j)} = x^{(j)} | Y = c_k)$
这里写图片描述

2.2 贝叶斯估计

用极大似然估计可能会出现所要估的概率值为0的情况，这时会影响到后验概率的计算结果，使分类产生偏差，解决这一问题的方法是采用贝叶斯估计，具体地，条件概率的贝叶斯估计是
$P_\lambda(X^{(j)} = a_{jl} | Y = c_k) = \frac{\sum_{i=1}^{N}}{\sum I(y_i=c_k)+ S_j\lambda}$
式中\lambda >= 0，等价于在随机变量各个取值的频数上赋予一个正数 $\lambda > 0$ ，当 $\lambda = 0$ 时就是极大似然估计。
常取 $\lambda = 1$ ,称为拉普拉斯平滑，显然，对任何l = 1,2,…,S_j，k = 1,2,…，K，有：
$P\lambda (X^{(j)} = a_{jl} | Y = c_k) > 0$
$\sum_{l=1}^{s_j} P(X^{(j)} = a_{jl} | Y = c_k) = 1$
同样，先验概率的贝叶斯估计是：
$P_\lambda(Y=c_k) = \frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+K\lambda}$
例子：
按照拉普拉斯平滑估计概率，即取 $\lambda = 1$
这里写图片描述
总结：
1.朴素贝叶斯法是典型的生成学习方法，生成方法是由训练数据学习联合概率分布P(X,Y)，然后求得后验概率分布P(Y|X)。
具体来说，利用训练数据学习P(X|Y)和P(Y)的估计，得到联合概率分布： $P(X,Y) = P(Y) P(X|Y)$
概率估计方法可以是极大似然估计或者贝叶斯估计
2.基本假设：条件独立性