【统计学习方法-李航-笔记总结】四、朴素贝叶斯法

本文是李航老师《统计学习方法》第四章的笔记,欢迎大佬巨佬们交流。

主要参考博客:

https://blog.csdn.net/zcg1942/article/details/81205770

https://blog.csdn.net/wds2006sdo/article/details/51967839(代码实现)

主要内容包括:

1. 补充贝叶斯定理基础知识

2. 朴素贝叶斯法的学习与分类

3. 朴素贝叶斯法的参数估计

4. 关于贝叶斯学派与频率学派的观点

1. 补充贝叶斯定理基础知识

(1)关于几种概率:

条件概率:条件概率Conditional Probabilities是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),条件概率和顺序有关,也就是说P(A|B)≠ P(B|A)。

联合概率:联合概率Joint Probabilities是指在多元的概率分布中多个随机变量分别满足各自条件的概率,也就是两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B),联合概率与顺序无关,P(AB) = P(BA)。

边缘概率:边缘概率 Marginal Probability 是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。比如已知A事件有很多种子事件Ai, 每个子事件都有可能发生事件B,那么B的概率就可以由所有B在Ai条件下发生的概率之和求出,即P(B) = ∑P(Ai)P(B|Ai),此时的P(B)称为边缘概率。

(2)贝叶斯公式的简单推导:

由上述概念知:P(AB) = P(A)P(B|A) = P(B)P(A|B)

因此:P(B|A) =P(B)P(A|B)/P(A)

(3)关于先验概率以及后验概率:

结合(2)中公式:

先验概率:表示已有的事物认知,用P(B)表示没有训练数据前事件B拥有的初始概率,反映了B是一正确假设的概率的背景知识;

似然值:P(A|B),表示针对某个具体B所测的值A,又叫似然数据;

后验概率:P(B|A)为后验概率,给定A时B成立的概率,称为B的后验概率,是我们对于世界的内在认知;

概率数据:P(A),表示某个数据点被测到的概率。

上述内容是对贝叶斯中易混概念的总结,详细贝叶斯公式的实例讲解可参考博客:http://blog.jobbole.com/111399/

2. 朴素贝叶斯法的学习与分类

    朴素贝叶斯法naïve Bayes,在naïve的中间字母上其实有两个点,查了一下才发现是法语中的分音符,在发音过程中发挥作用。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。

朴素贝叶斯有两个要点:

(1)该算法的理论核心是贝叶斯定理;

(2)它是基于条件独立性假设这个强假设之下的,这也是该算法为什么称为“朴素”的原因。

2.1 基本方法

    朴素贝叶斯法是典型的生成学习方法,生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。即,利用训练数据学习P(X|Y)和P(Y)的估计,得到联合概率分布(所求模型),也可以把联合概率分布考虑成是为了得到P(Y|X)(在输入X条件下的标签Y)的媒介。

设输入空间为X,输入特征向量x∈X,输出标记类Y = {c1,c2,...ck},y∈Y,训练数据集,则:

先验概率分布为:

条件概率分布为:

以上两个就是要估计的参数,二者相乘可得到所需学习的联合概率分布P(X,Y)。

其中,条件概率分布有指数级(若x(j)可取的值有Sj个,Y可取K个,则总参数量为)数量的参数,其估计实际是不可行的。朴素贝叶斯法对条件概率分布作了条件独立性的假设。条件独立性假设是说用于分类的特征在类确定的条件下都是条件独立的。这是一个较强的假设,朴素贝叶斯的“朴素”也体现在这里,条件独立性假设是:

由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯的学习与预测大为简化。因而朴素贝叶斯算法高效且易于实现,其缺点是分类的性能不一定很高。

随后用上述得到的联合分布计算后验概率

其中分母实质上求的是P(X=x),也就是特定特征组合x发生的概率。

把条件独立公式带入得:

这是朴素贝叶斯法分类的基本公式,朴素贝叶斯分类器可表示为:

即为求最大的后验概率。通俗来说,就是想知道在相同的特征组合x的情况下,y最可能属于哪一类。

由于上式分母对所有的ck都是相同的,都是计算P(X=x),所以最大化的其实是分子部分,即:

2.2 后验概率最大化的底层原理

朴素贝叶斯法是要将实例分到后验概率最大的类,这等价于期望风险最小化。

假设选择0-1损失函数:

这时,期望风险函数为:

期望是对联合分布P(X,Y)取的(因为想要训练的模型是联合分布),由此取条件期望(也就是乘以X条件下每种类型发生的概率):

为了使期望风险最小化,只需对X = x逐个最小化,得到:

这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:

这就是2.1中最后推得最大化后验概率的含义,或者说是底层的原理。

3. 朴素贝叶斯法的参数估计

3.1 极大似然估计

    上文2.1中说到,模型的学习过程就是估计,以下应用极大似然估计法对二者进行估计:

    先验概率的极大似然估计是:

    条件概率的极大似然估计是:

    

    对于各种估计方法的详细解释,请移步:https://blog.csdn.net/Mr_tyting/article/details/62882162

    以及:https://blog.csdn.net/u011508640/article/details/72815981

    利用上述估计的朴素贝叶斯算法步骤如下:

3.2 贝叶斯估计

    用极大似然估计可能会出现所要估计的概率值为0的情况,使分类产生偏差,解决这一问题的方法是采用贝叶斯估计。

条件概率的贝叶斯估计为:,S代表特征空间的维数。

式中λ ≥ 0,等价于在随机变量各个取值的频数上赋予一个整数λ ,当λ = 0时,就是极大似然估计。

常取λ = 1, 称为拉普拉斯平滑,显然,对于任意l和k,有:

同理,先验概率的贝叶斯估计为:,K代表标签的类别数。

书中的例子有助于理解以上两种估计方法计算上的区别,贴在这里,帮助大家理解:

(1)利用极大似然估计计算:

(2)利用贝叶斯估计计算:

对于几种估计的比较,下图较为清晰,参考:https://blog.csdn.net/fjssharpsword/article/details/79297306

4. 关于贝叶斯学派与频率学派的观点

    提到贝叶斯定理,就必须要提到贝叶斯学派才能了解这种方法的思想,与其对应的是频率学派。频率学派认为模型的参数是固定的,只不过是未知的,实验次数大到一定程度,频率会稳定于一个固定值,即概率。具体主要通过似然函数求解,如最大似然估计MLE;而贝叶斯是从数据出发,认为参数也是随机变量,拥有概率分布,通过后验概率计算,如最大后验概率MAP,旧的后验会成为新的先验,如此重复下去。贝叶斯学派加入了先验概率,靠谱的先验概率可以使含有随机噪声的数据更加健壮。可以把频率学派中的最大似然看作各种猜测先验概率相等的特殊情况。

关于这两个学派详见:https://blog.csdn.net/u012116229/article/details/24636001

猜你喜欢

转载自blog.csdn.net/zl3090/article/details/82989065