朴素贝叶斯法

简单介绍：输入输出的联合概率密度已知，对给定的输入，利用贝叶斯定理求出后验概率最大的输出

朴素贝叶斯法的基本方法

通过训练集来学习联合概率分布，即利用先验概率分布 $P(Y = {c_k}),k = 1,2, \cdots ,K$ 以及条件概率分布 $P(X = x|Y = {c_k}) = P({X^{(1)}} = {x^{(1)}}, \cdots ,{X^{(n)}} = {x^{(n)}}|Y = {c_k})$ 来得到联合概率分布。
但是，条件概率分布的参数较多，其估计实际不可行，所以对条件概率分布做了条件独立性的假设，即当分类类别确定时，各个特征相互独立，具体为
$\begin{array}{l} P(X = x|Y = {c_k}) = P({X^{(1)}} = {x^{(1)}}, \cdots ,{X^{(n)}} = {x^{(n)}}|Y = {c_k})\ = \prod\limits_{j = 1}^n {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})} \end{array} (1)$
利用独立性假设会使朴素贝叶斯法变得简单，但会牺牲一定的分类准确性。
当使得方法变得可实现之后，考虑如何找到最合适的模型，这里利用后验概率，将后验概率最大的类作为x的类的输出
后验概率计算利用贝叶斯定理进行计算：
$P(Y = {c_k}|X = x) = \frac{{P(X = x|Y = {c_k})P(Y = {c_k})}}{{\sum\nolimits_k {P(X = x|Y = {c_k})P(Y = {c_k})} }}(2)$
将（1）代入（2）中可得：
$P(Y = {c_k}|X = x) = \frac{{P(Y = {c_k})\prod\nolimits_j {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})} }}{{\sum\nolimits_k {P(Y = {c_k})\prod\nolimits_j {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})} } }}$
要使上式最大，等价于取：
$y = \arg \mathop {\max }\limits_{{c_k}} P(Y = {c_k})\prod\nolimits_j {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})}$
1. 后验概率最大化的含义：
使得期望风险最小化，即：
$f(x) = \arg \mathop {\max }\limits_{{c_k}} P({c_k}|X = x)$

朴素贝叶斯法的参数估计

1、极大似然估计
先验概率 $P(Y = {c_k})$ 的极大似然估计：
$P(Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} }}{N},k = 1,2, \cdots ,K$
条件概率 $P({X^{(j)}}{\rm{ = }}{a_{jl}}{\rm{|}}Y = {c_k})$ 的极大似然估计是：
$P({X^{(j)}}{\rm{ = }}{a_{jl}}|Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I(x_i^{(j)} = {a_{jl}},{y_i} = {c_k})} }}{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} }}$
2、朴素贝叶斯算法
1） $P(Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} }}{N},k = 1,2, \cdots ,K$
$P({X^{(j)}}{\rm{ = }}{a_{jl}}|Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I(x_i^{(j)} = {a_{jl}},{y_i} = {c_k})} }}{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} }}$
2）对于给定的实例 $x = {({x^{(1)}},{x^{(2)}}, \cdots ,{x^{(n)}})^T}$ ，计算
$P(Y = {c_k})\prod\limits_{j = 1}^n {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})}$
3）确定实例x的类
$y = \arg \mathop {\max }\limits_{{c_k}} P(Y = {c_k})\prod\limits_{j = 1}^n {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})}$
3、贝叶斯估计
条件概率的贝叶斯估计是：
${P_\lambda }({X^{(j)}}{\rm{ = }}{a_{jl}}|Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I(x_i^{(j)} = {a_{jl}},{y_i} = {c_k})} + \lambda }}{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} + {S_j}\lambda }}$

统计学习方法笔记（八）朴素贝叶斯法

朴素贝叶斯法

朴素贝叶斯法的基本方法

朴素贝叶斯法的参数估计

猜你喜欢