朴素贝叶斯(naive Bayes)原理

朴素贝叶斯方法是基于贝叶斯定理特征条件独立假设的分类方法。

  贝叶斯定理:条件概率推理,利用条件概率来对一些事情进行推断。

  特征条件独立假设:用于分类的特征在类确定的情况下都是条件独立的。

1. 贝叶斯分类基本原理:

    对于给定集合{X,Y},首先求取类别Y的分布概率,这是先验概率分布。

   再求取条件概率分布:,该分布的意义是训练数据集中标签为的样本集中,第j个样本出现的概率。

  由此,求得了先验概率,和条件概率,则可求得后验概率:.

2. 基本方法:

     假设给定训练数据集:

                                                                                 (1.1)

其中x,y独立同分布。其中类别标签中有K个类别,,则先验概率分布为:

                                                                                                                                          (1.2)

,条件概率计算方式为:

                                    (1.3)

再根据前面的特征条件独立的强假设,上式可以变成:

                                                           (1.4)

使用朴素贝叶斯分类时,对于输入数据x,通过学习到的模型,计算出后验概率分布:

其公式表达式为:

                     (1.5)

再将公式(1.4)引入,可以获得新的后验概率表达式为:

          (1.6)

则贝叶斯模型分类器模型表达式可以表示为:

                           (1.7)

由于(1.7)中每次的是相同的,因此分母的概率累加和为1.则公式(1.7)可以变形为:

                              (1.8)

3. 后验概率最大化:

                朴素贝叶斯算法将实例分到后验概率最大的类。这等价于期望风险最小化。假设损失函数为:,

L(Y,f(X))={1,Y≠f(X)0,Y=f(X)

上式中的是分类决策函数, 这时,期望风险函数表达式为:

                                                       

此期望是对联合分布取的。公式表达式为:

                                        

而Y由组成,故期望风险的表达式可以表示为:

                                           

为了使期望风险最小化,只需对逐个极小化: 

                                        

通过以上推导,根据期望风险最小化得到了后验概率最大化:

                                           

这就是朴素贝叶斯算法所使用的原理。

猜你喜欢

转载自blog.csdn.net/zc20161202005/article/details/80079939