以贝叶斯决策为核心的统计决策基本思想和原理

本文主要讲述作为监督模式识别理论基础的贝叶斯决策理论及典型决策方法,介绍了最小错误率贝叶斯决策、最小风险贝叶斯决策和在控制一类错误率的情况下使另一类错误率尽可能小的 Neyman-Pearson 决策的方法等。

目录

1 硬币引例引出相关概念

1.1 先验概率

1.2 后验概率

1.3 基于贝叶斯公式的后验概率

1.4 贝叶斯决策

1.5 错误率及错误概率的期望

2 最小错误率贝叶斯决策

2.1 理论介绍

2.2 例题实战

3 最小风险贝叶斯决策

3.1 理论介绍

3.2 例题实战

4 两类错误率

5 Neyman-Pearson 决策规则

6 总结


统计决策的基本原理就是根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。而通过贝叶斯公式,后验概率的比较可以转化为类条件概率密度的比较,离散情况下也是类条件概率的比较,而这种条件概率或条件密度则反映了在各类的模型下观察到当前样本的可能性或似然度,因此可以定义两类之间的似然比或对数似然进行决策。
根据面对的具体问题不同,各类特征的概率模型可能会变得非常复杂,但是基本的求解步骤和决策原理是一致的。

1 硬币引例引出相关概念

分类可以看作是一种决策,即我们根据观测对样本做出应归属哪一类的决策。

本文先从硬币分类实例入手,介绍统计决策方法的相关概念。

1.1 先验概率

假定我手里握着握着一枚硬币,让你猜是多少钱的硬币,这其实就看以看作是一个分类决策问题:你需要从各种可能的硬币中做出一个决策。如果我只告诉你这枚硬币只可能是一角或者五角,这就是一个两类的分类问题。

在没有任何信息的情况下,有人可能猜测这是一枚一角的硬币,因为他在最近一段时间接触到的一角硬币比五角的硬币多,因此他觉得更可能是一角。这就是一种决策。事实上,这个决策过程是由理论依据的:它是通过对最近所接触过的硬币做出的粗略分类,然后据此选择的概率较大的决策。

如果将上述文字用数学表达,即把硬币记做 x,把一角和五角硬币这两类分别记做 \omega _{1} 和 \omega _{2},用 {\color{Red} P(\omega _{1})} 和 {\color{Red} P(\omega _{2})} 分别表示两类的概率(即先验概率),这一决策可以表示为
                                     如果 P(\omega _{1})> P(\omega _{2}),则 x\in \omega _{1};反之,则 x\in \omega _{2}

只有两类的情况下,P(\omega _{1})+P(\omega _{2})=1

如果决策 x\in \omega _{1},那么犯错误的概率就是 P(error)=1-P(\omega _{1})=P(\omega _{2}),反之亦然。

1.2 后验概率

上面说的概率是在没有对样本进行任何观测情况下的概率,所以叫做先验概率(a priori probability)。

下面仍然不允许看硬币,但是允许你用天平来称量硬币的重量,让你根据重量来做决策。

把硬币的重量仍即记为 x,对两类硬币分别记做 {\color{Red} P(\omega _{1}\mid x)} 和 {\color{Red} P(\omega _{2}\mid x)},这种概率处称为后验概率(a posterior probability)。这时的决策应该是
                                     如果 P(\omega _{1}\mid x)> P(\omega _{2}\mid x),则 x\in \omega _{1};反之,则 x\in \omega _{2}      

同样,只有两类的情况下,P(\omega _{1}\mid x)+P(\omega _{2}\mid x)=1

如果决策 x\in \omega _{1},那么犯错误的概率就是 P(error)=1-P(\omega _{1}\mid x)=P(\omega _{2}\mid x),反之亦然。

1.3 基于贝叶斯公式的后验概率

根据概率论中的贝叶斯公式(Bayes'formula 或 Bayesian Theorem),有

                                       {\color{Red} P(\omega _{i}\mid x)=\frac{p(x,\omega _{i})}{p(x)}=\frac{p(x\mid \omega _{i})p(\omega _{i})}{p(x)}, \; \; \; i=1,2}

其中,P(\omega _{i}) 是先验概率;
           P(x,\omega _{i}) 是 x 与 \omega _{i} 的联合概率密度;
           p(x) 是两类所有硬币重量的概率密度,称为总体密度;
           p(x\mid \omega _{i}) 是第 i 类硬币重量的概率密度,称为类条件密度。

这样,后验概率就转换成了先验概率与类条件密度的乘积,再用总体密度进行归一化

事实上,上式分解的后验概率中分母部分是总体密度,对于两类没有区别,因此只需要比较分子上的两项就可以了,即比较先验概率和类条件密度的乘积,决策准则如下:
                                       如果 P(x\mid \omega _{1})P(\omega _{1})> P(x\mid \omega _{2})P(\omega _{2}),则 x\in \omega _{1};反之,则 x\in \omega _{2}             

1.4 贝叶斯决策

这就是贝叶斯决策:在类条件概率密度和先验概率已知(或可以估计)的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为后验概率大的一类,这样做的目的是为了使总体错误率最小。

贝叶斯决策理论也称作统计决策理论。

1.5 错误率及错误概率的期望

任一决策都有可能会有错误,对两类问题,在样本 x 上的错误的概率为

                                         p(e\mid x)=\left\{\begin{matrix} P(\omega _{2}\mid x)\; \; \, \; \; \; if \;\; x\in \omega _{1} & & \\ P(\omega _{1}\mid x)\; \; \, \; \; \; if \;\; x\in \omega _{2} & & \end{matrix}\right.

错误率定义为所有服从同样分布的独立样本上错误概率的期望,即

                                          P(e)=\int P(e\mid x)p(x)dx

这里,用 \int \cdot \: dx 表示在特征 x(向量或标量)的全部取值空间做积分。

在所有样本上做出正确决策的概率就是正确率,通常记作 P(c)。显然 P(c)=1-P(e)

下面介绍几种常用的贝叶斯决策规则。

2 最小错误率贝叶斯决策

2.1 理论介绍

在一般的模式识别问题中,人们往往希望尽量减少分类的错误,即目标是追求最小错误率。从最小错误率的要求出发,利用概率论中的贝叶斯公式,就能得出使错误率最小的分类决策,称之为最小错误率贝叶斯决策

最小错误率就是求解一种决策规则,使错误概率的期望最小化,即
                                            minP(e)=\int P(e\mid x)p(x)dx

对于所有 xP(e\mid x)\geqslant 0,p(x)\geqslant 0,所以上式等价于对所有 x 最小化 P(e\mid x)

使错误率最小的决策就是使后验概率最大的决策,因此,对于两类问题,得到如下决策规则:
                                            如果 P(\omega _{1}\mid x)> P(\omega _{2}\mid x),则 x\in \omega _{1};反之,则 x\in \omega _{2}
或简记作
                                            如果 P(\omega _{1}\mid x)\begin{matrix} > \\ < \end{matrix} P(\omega _{2}\mid x),则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

这就是最小错误率贝叶斯决策。(注:在无特殊说明下的贝叶斯决策通常就是指最小错误率贝叶斯决策)

其中,后验概率用贝叶斯公式求得

                                            {\color{Red} P(\omega _{i}\mid x)=\frac{p(x\mid \omega _{i})P(\omega _{i})}{p(x)}=\frac{p(x\mid \omega _{i})P(\omega _{i})}{\sum_{j=1}^{2}p(x\mid \omega _{j})P(\omega _{j})},\; \; \; i=1,2}

最小错误率贝叶斯决策规则可以表示成多种鞥等价的形式:

(1)若 P(\omega _{i}\mid x)=\underset{j=1,2}{max}P(\omega _{j}\mid x),则  x\in \omega _{i}

(2)若 P(x\mid \omega _{i})P(\omega _{i})=\underset{j=1,2}{max}P(x\mid \omega _{j})P(\omega _{j}),则  x\in \omega _{i}

(3)若 l(x)=\frac{p(x\mid \omega 1)}{p(x\mid \omega 2)}\begin{matrix} >\\ < \end{matrix}\; \lambda =\frac{P(\omega _{2})}{P(\omega _{1})},则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

(4)定义对数似然比 h(x)=-ln[l(x)]=-lnp(x\mid \omega _{1})+lnp(x\mid \omega _{2})
         若 h(x)\begin{matrix} < \\ > \end{matrix}ln\frac{P(\omega _{1})}{P(\omega _{2})},则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

2.2 例题实战

例1 假设在某个局部地区细胞识别中正常(\omega _{1})和异常(\omega _{2})两类的先验概率分别为
                       正常状态    P(\omega _{1})=0.9
                       异常状态    P(\omega _{2})=0.1
现有一待识别的细胞,其观察值为 x,从类条件概率密度曲线上分别查得
                        p(x\mid \omega _{1})=0.2
                        p(x\mid \omega _{2})=0.4
试对该细胞 x 进行分类。

:利用贝叶斯公式,分别计算出 \omega _{1} 和 \omega _{2} 的后验概率
                         P(\omega _{1}\mid x)=\frac{p(x\mid \omega _{1})P(\omega _{1})}{\sum_{j=1}^{2}p(x\mid \omega _{j})P(\omega _{j})}=\frac{0.2\times 0.9}{0.2\times 0.9+0.4\times 0.1}=0.818
                          P(\omega _{2}\mid x)=1-P(\omega _{1}\mid x)=0.182
        根据贝叶斯决策规则式,因为
                          P(\omega _{1}\mid x)=0.818> P(\omega _{2}\mid x)=0.182
        所以合理的决策是把 x 归类于正常状态。

3 最小风险贝叶斯决策

3.1 理论介绍

现在再回到猜硬币那个简单地例子上来。前面给出的是在最小错误率的原则下得到的决策规则,但是,根据具体的场合不同,我们应关心的有可能不仅仅是错误率,而是错误率带来的损失:毕竟,把一角误认为是五角与把五角误认为是一角带来的损失是不同的。

所谓最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一种最优决策。

下面用决策论的概念把问题表述一下:
(1)把样本 x 看做 d 维随机向量 x=[x_{1},x_{2},...,x_{d}]^{T}
(2)状态空间 \Omega 由 c 个可能的状态(c 类)组成:\Omega =\left\{\begin{matrix} \; \end{matrix}\right.\omega _{1},\omega _{2},...,\omega _{c}\left.\begin{matrix} \; \end{matrix}\right\}
(3)对随机向量 x 可能采取的决策组成了决策空间,它由 k 决策组成
                              \wp =\left\{\begin{matrix} \; \end{matrix}\right.\alpha _{1},\alpha _{2},...,\alpha _{k}\left.\begin{matrix} \; \end{matrix}\right\}
         值得注意的是,这里没有假定 k=c。这是更一般的情况,比如,有时除了判别为某一类外,对某些样本还可以做出拒绝的决策,即不能判断属于任何一类;有时也可以在决策时把几类合并为同一个大类,等等。
(4)设对于实际状态为 \omega _{j} 的向量 x,采取决策 \alpha _{i} 所带来的损失为
                              \lambda (\alpha _{i},\omega _{j}),\; i=1,...,k,\; j=1,...,c
          称作为损失函数。通常它可以用表格的形式给出,叫做决策表。在实际应用中需要根据问题的背景知识确定合理的决策表。

对于某个样本 x,它属于各个状态的后验概率是 P(\omega _{j}\mid x),j=1,...,c,对它采取决策 \alpha _{i},i=1,...,k 的期望损失是
                              R(\alpha _{i}\mid x)=E[\lambda (\alpha _{i,\omega _{j}})\mid x]=\sum_{j=1}^{c}\lambda (\alpha _{i},\omega _{j})P(\omega _{j}\mid x),\: \: i=1,...,k
设有某一决策规则 \alpha (x),它对特种空间中所有可能的样本 x 采取决策所造成的期望损失是
                               R(\alpha )=\int R(\alpha (x)\mid x)\: p(x)dx
(注:R(\alpha (x)\mid x) 和 p(x) 都是非负的,且 \: p(x) 是已知的,与决策准则无关。要使积分和最小,就是要对所有 x 都使 R(\alpha (x)\mid x) 最小)

R(\alpha ) 称作平均风险或期望风险。最小风险贝叶斯决策就是最小化这一期望风险,即
                                               \underset{\alpha }{min}R(\alpha )

对于一个实际问题,对样本 x,最小风险贝叶斯决策可以按照如下步骤计算:

(1)利用贝叶斯公式计算后验概率
                                 P(\omega _{j}\mid x)=\frac{p(x\mid \omega _{j})P(\omega _{j})}{\sum_{i=1}^{c}p(x\mid \omega _{i})P(\omega _{i})},\; \; \; i=1,...,c
(2)利用决策表,计算条件风险
                                 R(\alpha _{i}\mid x)=\sum_{j=1}^{c}\lambda (\alpha _{i},\omega _{j})P(\omega _{j}\mid x),\: \: i=1,...,k
(3)决策:在各种决策中选择风险最小的决策,即
                                  \alpha =arg\underset{i=1,...k}{min}R(\alpha _{i}\mid x)

特别地,在实际是两类且决策也是两类的情况下(没有拒绝),最小风险贝叶斯决策为
                                   若 \lambda _{11}P(\omega _{1}\mid x)+\lambda _{12}P(\omega _{2}\mid x)\begin{matrix} < \\ > \end{matrix}\lambda _{21}P(\omega _{1}\mid x)+\lambda _{22}P(\omega _{2}\mid x),则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

其中,\lambda _{12}=\lambda (\alpha _{1},\omega _{2}) 是把属于第 2 类的样本分为第 1 类时的损失,
           \lambda _{21}=\lambda (\alpha _{2},\omega _{1}) 是把视域第 1 类的样本分为第 2 类时的损失,
           \lambda _{11}=\lambda (\alpha _{1},\omega _{1}),\lambda _{22}=\lambda (\alpha _{2},\omega _{2}) 是决策正确时的损失。通常,\lambda _{11}=\lambda _{22}=0;不失一般性,我们可以假设\lambda _{11}< \lambda _{21},\lambda _{22}< \lambda _{12}

很显然,当 \lambda _{11}=\lambda _{22}=0,\lambda _{12}=\lambda _{21}=1 时,最小风险贝叶斯决策就转化成最小错误率贝叶斯决策。可以把最小错误率贝叶斯决策看作是最小风险贝叶斯决策的特例。

事实上,在多类情况下,如果这种 0-1 决策表,即决策与状态相同则损失为 0、不同则损失为 1,那么最小风险贝叶斯决策也等价于最小错误率贝叶斯决策。

3.2 例题实战

例2 在例1给出的条件的基础上,利用下面的决策表,按最小风险贝叶斯决策进行分类。

决策 状态
\omega _{1} \omega _{2}
\alpha _{1} 0 6
\alpha _{2} 1 0

:已知条件为
                           P(\omega _{1})=0.9P(\omega _{2})=0.1
                           p(x\mid \omega _{1})=0.2p(x\mid \omega _{2})=0.4
                           \lambda _{11}=0,\lambda _{12}=6,\lambda _{21}=1,\lambda _{22}=0
        根据例 1 计算结果可知后验概率为
                            P(\omega _{1}\mid x)=0.818,P(\omega _{2}\mid x)=0.182
        再计算出条件风险
                             R(\alpha _{1}\mid x)=\sum_{j=1}^{2}\lambda _{1j}P(\omega _{j}\mid x)=\lambda _{12}P(\omega _{2}\mid x)=1.092
                             R(\alpha _{2}\mid x)=\lambda _{21}P(\omega _{1}\mid x)=0.818
        由于
                              R(\alpha _{1}\mid x)> R(\alpha _{2}\mid x)
        即决策为 \omega _{2} 的条件风险小于决策为 \omega _{1} 的条件风险,因此我们采取决策行动 \alpha _{2},即判断待识别的细胞 x 为 \omega _{2} 类——异常细胞。

可以看到,同样的数据,因为对两类错误所带来的的风险的认知不同,这里得出了与例1中相反的结论。

需要指出,最小风险贝叶斯决策中的决策表是需要人为确定的,决策表不同会导致决策结果的不同。因此,在实际应用中,需要认真分析所研究问题的内在特点和分类的目的,与应用领域的专家共同设计出适当的决策表,才能保证模式识别发挥有效的作用。

4 两类错误率

下面进一步研究两类情况下的错误率问题。

之所以引入决策表,是因为不同情况的分类错误所带来的的损失是不同的。在很多实际的两类问题中两类并不是同等的。

状态与决策的可能关系
决策 状态
阳性 阴性
阳性 真阳性(TP) 假阳性(FP)
阴性 假阴性(FN) 真阴性(TN)

第一类错误率假阳性率)往往用 {\color{Red} \alpha} 表示,指真实的阴性样本中被错误判断为阳性的比例;
                                              {\color{Red} \alpha =} 假阳性样本数 {\color{Red} /} 总阴性样本数
第二类错误率假阴性率)往往用 {\color{Red} \beta} 表示,指真实的阳性样本中被错误判断为阴性的比例;
                                              {\color{Red} \beta =} 假阴性样本数 {\color{Red} /} 总阳性样本数
灵敏度(sensitivity)往往用 {\color{Red} Sn} 表示;
                                               {\color{Red} Sn=\frac{TP}{TP+FN}}
特异度(specificity)往往用 {\color{Red} Sp} 表示;
                                               {\color{Red} Sp=\frac{TN}{TN+FP}}
精度往往用 {\color{Red} P} 表示;
                                               {\color{Red} P=\frac{TP}{TP+FP}}
​​​​​​​准确率{\color{Red} =\frac{TP+TN}{TP+FP+TN+FN}}

值得注意的是,把第一类错误与第二类错误的叫法是由把两类中的哪一类看作是阳性、哪一类看作是阴性决定的,实际应用中需要根据具体的情况决定。在最小风险贝叶斯决策中,实际就是通过定义两类错误不同的相对损失来取得二者之间的折中。

5 Neyman-Pearson 决策规则

在某些应用中,有时希望保证某一类错误率为一个固定的水平,在此前提下在考虑另一类错误率尽可能低。比如,如果检测处某一目标或者诊断出某种疾病非常重要,可能会要求确保漏报率达到某一水平 \varepsilon _{0},在此前提下在追求误警率即地一类错误率尽可能低(特异性尽可能高)。

现令 \omega _{1} 类是阴性、\omega _{2} 类是阳性。

第一类错误率是 P_{1}(e)=\int _{R_{2}}p(x\mid \omega _{1})dx

第二类错误率是P_{2}(e)=\int _{R_{1}}p(x\mid \omega _{2})dx

(注:其中 R_{1}R_{2} 分别是第一、二类的决策域,且 R_{1}+R_{2}=1,两个决策区域之间的边界称作决策边界或分界面(点)t

于是所谓“固定一类错误率、使另一类错误率尽可能小”的决策可表示为

                           min\; P_{1}(e)
                           s.t.\; P_{2}(e)-\varepsilon _{0}=0

进一步来讲,可以用拉格朗日乘子法把上式的有约束极值问题转化为(\lambda 是拉格朗日乘子)

                           min\; \gamma =P_{1}(e)+\lambda (P_{2}(e)-\varepsilon _{0})

考虑到概率密度函数的性质,有

                           \int _{R_{2}}p(x\mid \omega _{1})dx=1-\int _{R_{1}}p(x\mid \omega _{1})dx

再根据平均错误率
                           P_{1}(e)=\int _{R_{2}}p(x\mid \omega _{1})dx
                           P_{2}(e)=\int _{R_{1}}p(x\mid \omega _{2})dx

可以得到

                            \gamma =\int _{R_{2}}p(x\mid\omega _{1})dx+\lambda[\int _{R_{1}}p(x\mid\omega _{2})dx-\varepsilon _{0}]
                                =(1-\lambda\varepsilon _{0})+\int _{R_{1}}[\lambda\: p(x\mid\omega _{2})-p(x\mid\omega _{1})]dx

优化的目标是求解使上式最小的决策边界 t,将上式分别对 \lambda 和分界面 t 求导,在 \gamma 的极值处这两个导数都应该是 0
由此可得,在决策边界上应该满足

                            \lambda =\frac{p(x\mid \omega _{1})}{p(x\mid \omega _{2})}

应选择 R_{1} 使积分项内全部负值,因此 R_{1} 应该是所有使

                            \lambda p(x\mid \omega _{2})-p(x\mid \omega _{1})< 0

成立的 x 组成的区域。所以决策规则是

                           若 l(x)=\frac{p(x\mid \omega _{1})}{p(x\mid \omega _{2})}\begin{matrix} \; > \\ < \end{matrix}\; \lambda,则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

其中 \lambda 是使决策区域满足上式的阈值。这种在限定一类错误率为常数而使另一类错误率最小的决策规则称作 规则。

6 总结

不难发现,最小错误率贝叶斯决策、最小风险贝叶斯决策、Neyman-Pearson 决策的区别只是在于决策阈值的不同,采用不同的阈值,就能达到错误率的不同情况。

最小错误率贝叶斯决策:采用先验概率比作阈值,达到总的错误率最小,即两类错误率之加权和最小;

                            若 l(x)=\frac{p(x\mid \omega 1)}{p(x\mid \omega 2)}\begin{matrix} >\\ < \end{matrix}\; \lambda =\frac{P(\omega _{2})}{P(\omega _{1})},则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

最小风险贝叶斯决策:其阈值考虑了对两类错误率不同的惩罚,实现风险最小;

                            若 l(x)=\frac{p(x\mid \omega _{1})}{p(x\mid \omega _{2})}\begin{matrix} \; > \\ < \end{matrix}\frac{P(\omega _{2})}{P(\omega _{1})}\cdot \frac{\lambda _{12}-\lambda _{22}}{\lambda _{21}-\lambda _{11}},则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

Neyman-Pearson 决策:通过调整阈值,使一类的错误率为指定数值,而另一类的错误率求最小。

                             若 l(x)=\frac{p(x\mid \omega _{1})}{p(x\mid \omega _{2})}\begin{matrix} \; > \\ < \end{matrix}\; \lambda,则 x\in \left\{\begin{matrix} \omega _{1}\\ \omega _{2} \end{matrix}\right.

猜你喜欢

转载自blog.csdn.net/IT_charge/article/details/108689884
今日推荐