朴素贝叶斯算法(Naive Bayes)

一.相关公式

    先验概率P(A):在不考虑任何条件下,根据经验或样本统计给出的事件发生的概率.

    条件概率P(B|A):A事件发生的条件下,事件B发生的概率.     

    后验概率P(A|B):事件B发生后,对事件A的概率的重新评估.

    Bayes公式: 贝叶斯公式是由条件概率和全概率公式组成.

二.贝叶斯算法

    1. 朴素贝叶斯的特征条件独立性假设

        朴素贝叶斯认为,特征之间是相互独立的,这也是'朴素'的原因.

    2.  朴素贝叶斯算法的执行流程如下:

         1)设为待分类项,其中a为x的一个特征属性

         2)类别集合为:

         3)根据贝叶斯公式,计算

         4)如果 ,则x属于这一类.

    3.  高斯朴素贝叶斯(一般使用在特征属性连续的情况下)

    上面的算法流程中可以看出,朴素贝叶斯算法就是对贝叶斯公式的一种运用,它没有进行任何的改变.

    在计算条件概率时,对于离散的数据特征可以使用大数定理(频率代替概率的思想).但是,怎么处理连续的特征呢?这里我们一般使用高斯朴素贝叶斯.

    所谓高斯朴素贝叶斯,就是当特征属性为连续值并且服从高斯分布时,可以使用高斯分布的概率公式直接计算条件概率的值.

    

    此时,我们只需要计算各个类别下的特征划分的均值和标准差.

    4.  多项式朴素贝叶斯(一般使用在特征属性离散的情况下)

    所谓多项式朴素贝叶斯,就是特征属性服从多项式分布,进而对于每一个类别y,参数,,其中n为特征属性数目,那么P(xi|y)的概率为θyi

    5.  伯努利朴素贝叶斯(一般使用在缺失值较多的情况下)

    与多项式模型一样,伯努利模型适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0).

    

三.贝叶斯算法的应用场景

    贝叶斯算法主要运用在文本分类中,例如垃圾邮件的处理等场景,具有很好的效果.

猜你喜欢

转载自blog.csdn.net/qq_32241189/article/details/80194653