[work] Wikipedia 贝叶斯定理

贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。

作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的。然而,频率主义者贝叶斯主义者对于“在应用中,某个随机事件的概率该如何被赋值?”这个问题有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的发生的个数来赋值概率;贝叶斯主义者则根据未知的命题来赋值概率。这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。

目录

陈述[编辑]

贝叶斯定理是关于随机事件A和B的条件概率的一则定理。

{\displaystyle P(A|B)={\frac {P(A)\times P(B|A)}{P(B)}}}{\displaystyle P(A|B)={\frac {P(A)\times P(B|A)}{P(B)}}}

其中P(A|B)是指在事件B发生的情况下事件A发生的概率。

在贝叶斯定理中,每个名词都有约定俗成的名称:

  • P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率
  • P(A)是A的先验概率(或边缘概率)。之所以称为"先验"是因为它不考虑任何B方面的因素。
  • P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率
  • P(B)是B的先验概率或边缘概率。

按这些术语,贝叶斯定理可表述为:

后验概率 = (似然性*先验概率)/标准化常量

也就是说,后验概率与先验概率和相似度的乘积成正比。

另外,比例P(B|A)/P(B)也有时被称作标准似然度(standardised likelihood),贝叶斯定理可表述为:

后验概率 = 标准似然度*先验概率

从条件概率推导贝叶斯定理[编辑]

根据条件概率的定义。在事件B发生的条件下事件A发生的概率是[1]

{\displaystyle P(A|B)={\frac {P(A\cap B)}{P(B)}}}P(A|B)={\frac {P(A\cap B)}{P(B)}}

其中 AB的联合概率表示为{\displaystyle P(A\cap B)}P(A\cap B)或者{\displaystyle P(A,B)}P(A,B)或者{\displaystyle P(AB)}{\displaystyle P(AB)}

同样地,在事件A发生的条件下事件B发生的概率

{\displaystyle P(B|A)={\frac {P(A\cap B)}{P(A)}}.\!}P(B|A)={\frac {P(A\cap B)}{P(A)}}.\!

整理与合并这两个方程式,我们可以得到

{\displaystyle P(A|B)\,P(B)=P(A\cap B)=P(B|A)\,P(A).\!}P(A|B)\,P(B)=P(A\cap B)=P(B|A)\,P(A).\!

这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯定理:

{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.\!}{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.\!}

二中择一的形式[编辑]

贝叶斯定理通常可以再写成下面的形式:

{\displaystyle P(B)=P(A,B)+P(A^{C},B)=P(B|A)P(A)+P(B|A^{C})P(A^{C})}P(B)=P(A,B)+P(A^{C},B)=P(B|A)P(A)+P(B|A^{C})P(A^{C})

其中AC是A的补集(即非A)。故上式亦可写成:

{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B|A)P(A)+P(B|A^{C})P(A^{C})}}.,\!}P(A|B)={\frac {P(B|A)\,P(A)}{P(B|A)P(A)+P(B|A^{C})P(A^{C})}}.,\!

在更一般化的情况,假设{Ai}是事件集合里的部分集合,对于任意的Ai,贝叶斯定理可用下式表示:

{\displaystyle P(A_{i}|B)={\frac {P(B|A_{i})\,P(A_{i})}{\sum _{j}P(B|A_{j})\,P(A_{j})}},\!}P(A_{i}|B)={\frac {P(B|A_{i})\,P(A_{i})}{\sum _{j}P(B|A_{j})\,P(A_{j})}},\!

以可能性与相似率表示贝叶斯定理[编辑]

参见:全概率公式

贝叶斯定理亦可由相似率Λ和可能性O表示:

{\displaystyle O(A|B)=O(A)\cdot \Lambda (A|B)}O(A|B)=O(A)\cdot \Lambda (A|B)

其中

{\displaystyle O(A|B)={\frac {P(A|B)}{P(A^{C}|B)}}\!}O(A|B)={\frac {P(A|B)}{P(A^{C}|B)}}\!

定义为B发生时,A发生的可能性(odds);

{\displaystyle O(A)={\frac {P(A)}{P(A^{C})}}\!}O(A)={\frac {P(A)}{P(A^{C})}}\!

则是A发生的可能性。相似率(Likelihood ratio)则定义为:

{\displaystyle \Lambda (A|B)={\frac {L(A|B)}{L(A^{C}|B)}}={\frac {P(B|A)}{P(B|A^{C})}}\!}\Lambda (A|B)={\frac {L(A|B)}{L(A^{C}|B)}}={\frac {P(B|A)}{P(B|A^{C})}}\!

贝叶斯定理与概率密度[编辑]

贝叶斯定理亦可用于连续机率分布。由于机率密度函数严格上并非机率,由机率密度函数导出贝叶斯定理观念上较为困难(详细推导参阅[2])。贝叶斯定理与机率密度的关系是由求极限的方式建立:

{\displaystyle f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}\!}f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}\!

全机率定理则有类似的论述:

{\displaystyle f(x|y)={\frac {f(y|x)\,f(x)}{\int _{-\infty }^{\infty }f(y|x)\,f(x)\,dx}}.\!}f(x|y)={\frac {f(y|x)\,f(x)}{\int _{-\infty }^{\infty }f(y|x)\,f(x)\,dx}}.\!

如同离散的情况,公式中的每项均有名称。 f(xy)是XY的联合分布; fx|y)是给定Y=y后,X的后验分布; fy|x)= Lx|y)是Y=y后,X的相似度函数(为x的函数); fx)和fy)则是XY的边际分布; fx)则是X的先验分布。 为了方便起见,这里的f在这些专有名词中代表不同的函数(可以由引数的不同判断之)。

贝叶斯定理的推广[编辑]

对于变数有二个以上的情况,贝叶斯定理亦成立。例如:

{\displaystyle P(A|B,C)={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}\!}P(A|B,C)={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}\!

这个式子可以由套用多次二个变数的贝式定理及条件机率的定义导出:

{\displaystyle P(A|B,C)={\frac {P(A,B,C)}{P(B,C)}}={\frac {P(A,B,C)}{P(B)\,P(C|B)}}=}P(A|B,C)={\frac {P(A,B,C)}{P(B,C)}}={\frac {P(A,B,C)}{P(B)\,P(C|B)}}=

{\displaystyle ={\frac {P(C|A,B)\,P(A,B)}{P(B)\,P(C|B)}}={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}}={\frac {P(C|A,B)\,P(A,B)}{P(B)\,P(C|B)}}={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}

一般化的方法则是利用联合机率去分解待求的条件机率,并对不加以探讨的变数积分(意即对欲探讨的变数计算边缘机率)。取决于不同的分解形式,可以证明某些积分必为1,因此分解形式可被简化。利用这个性质,贝叶斯定理的计算量可能可以大幅下降。贝叶斯网络为此方法的一个例子,贝叶斯网络指定数个变数的联合机率分布的分解型式,该机率分布满足下述条件:当其他变数的条件机率给定时,该变数的条件机率为一简单型式。

范例[编辑]

吸毒者检测[编辑]

下面展示贝叶斯定理在检测吸毒者时的应用。假设一个常规的检测结果的敏感度与可靠度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得

  • P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率
  • P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。
  • P(+|D)代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。
  • P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1 - 0.99 = 0.01。
  • P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率。用数学公式描述为:

{\displaystyle P(+)=P(+\cap D)+P(+\cap N)=P(+|D)P(D)+P(+|N)P(N)}{\displaystyle P(+)=P(+\cap D)+P(+\cap N)=P(+|D)P(D)+P(+|N)P(N)}

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):

{\displaystyle {\begin{aligned}P(D|+)&={\frac {P(+|D)P(D)}{P(+)}}\\&={\frac {P(+|D)P(D)}{P(+|D)P(D)+P(+|N)P(N)}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&=0.3322.\end{aligned}}}{\begin{aligned}P(D|+)&={\frac {P(+|D)P(D)}{P(+)}}\\&={\frac {P(+|D)P(D)}{P(+|D)P(D)+P(+|N)P(N)}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&=0.3322.\end{aligned}}

尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。

胰腺癌检测[编辑]

基于贝叶斯定理:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性。

不良种子检测[编辑]

基于贝叶斯定理:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假设总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三。

参见[编辑]

参考文献[编辑]

  1. 跳转^ Kenneth H. Rosen. Discrete Mathematics and its Applications 7th edition. 2012: 456. ISBN 978-0-07-338309-5 (英语).
  2. 跳转^ Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill.

外部链接[编辑]

猜你喜欢

转载自blog.csdn.net/Scythe666/article/details/82624344