【概率论与数理统计 Probability and Statistics 3】—— (important)全概率公式和贝叶斯公式

一、铺垫部分

1.1 条件概率

我们之前所讨论的诸如: P ( A ) P(A) 等,都是无条件公式。下面我们介绍条件概率公式
条件概率公式,我们用 P ( A B ) P(A|B) ,表示在事件 B B 发生的前提下,事件 A A 发生的概率。

举个栗子来看看条件概率和无条件概率的区别:还是投骰子吧,事件 A A = {点数是2},事件 B B = {点数是偶数},问: P ( A ) P(A) P ( A B ) P(A|B)
首先, P ( A ) P(A) ,很简单,一个无条件概率,那么样本空间的总数是 6 ,因此概率就是: 1 6 \frac{1}{6}

下面看看 P ( A B ) P(A|B) ,在事件 B B 发生的条件下,这句话,你品,你细品,有没有发现:我们的样本空间缩小了!因为前提是事件 B B 已经发生,所以所有可能的样本情况就是:2,4,6。因此,在这3个样本的情况下,投出点数是 2 的概率就应该是 1 3 \frac{1}{3}

下面介绍条件概率的计算方法: P ( A B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)}
不过一般看起来用概率相除不一定总是那么顺利,因为有可能 P ( A B ) P(AB) 不太容易求解,这时候我们用有利样本数比上新的样本空间总数也是一种好办法!

1.1.1 条件概率的一些性质

  1. 非负性,这很好理解: P ( A B ) 0 P(A|B) ≥ 0)
  2. 规范性: P ( Ω B ) = 1 P(Ω|B) = 1
  3. (易错!)若 A 1 , A 2 , , A n A_1,A_2,\cdots,A_n 是一系列互斥事件,那么有: P ( i = 1 n A i B ) = i = 1 n P ( A i B ) P(\sum_{i=1}^nA_i|B) = \sum_{i=1}^nP(A_i|B)
    我们发现了吗:不管事件 A A 的下标怎么变,条件是始终不会改变的!!
    因此,特别要记忆的: P ( A B ) = 1 P ( A ˉ B ) P(A|B) = 1-P(\bar{A}|B)

1.2 乘法公式

从上一节的学习中,我们知道: P ( A B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)}\\
那么我们换一下,就变成了: P ( A B ) = P ( B ) P ( A B ) P(AB) = P(B)P(A|B) ,这就是我们的乘法公式!

拓展到 n n 个事件也是一样的,我们有: P ( A 1 A 2 A 3 A n ) = P ( A 1 ) P ( A 2 A 1 ) P ( A 3 A 1 A 2 ) P ( A n A 1 A 2 A n 1 ) P(A_1A_2A_3\cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1})

你可能觉得这个公式这么长,这么复杂,会不会很难记?其实,如果我们分析一下这个很长一串的公式,它的实际意义是相当清晰的。我们也写一个三个事件的情况:
P ( A B C ) = P ( A ) P ( B A ) P ( C A B ) P(ABC) = P(A)P(B|A)P(C|AB)

我们看看这个公式的意义:我们试想,你现在在一个布满陷阱的迷宫里面~~,你需要走三步才能逃脱这个迷宫,你有很多路径可以选,但是只有一条路是正确的,(也就是沿着 A B C A\to B\to C ),走错了其中任何一条路,你就会因遭遇机关而再也无法逃出去。

所以,你逃出迷宫的概率,就可以用 P ( A B C ) P(ABC) 表示了,所以, P ( A ) P(A) 就表示你第一步走对了, P ( B A ) P(B|A) 就表示在第一步走对了的情况下,你又走对了第二步! P ( C A B ) P(C|AB) 表示在前两步都走对了的前提下,你成功地找到了最后一条路!

扫描二维码关注公众号,回复: 10496830 查看本文章

这样是不是就很容易记忆了?哈哈

二、全概率公式

我们先把全概率公式的定义给出来:
定理:假设 B 1 , B 2 , , B n B_1, B_2, \cdots, B_n 是一个互斥完备群(也即是它们两两互斥,而且 i = 1 n B i = Ω \sum_{i=1}^nB_i = Ω ),而且 P ( B j ) > 0 P(B_j) > 0 ,那么对于任何的事件 A A ,我们有: P ( A ) = i = 1 n P ( B i ) P ( A B i ) P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)

这个公式想表达的意义是什么呢?我们可以这样理解:

假设我们准备参加一场数学考试,如果我们设考试成功为事件 A。那么,能够造成你考试成功的因素有哪些呢?我们知道比如说:1. 你日积月累的努力 2. 试卷题目简单 3. 你那天早餐吃得不错 4. 你前一晚睡得不错 甚至可能还有 5. 运气也不错 、、、我们把这些能够影响最终事件 A 的称为影响因素,用 B B 来表示。这每一个因素都有自己发生的概率,这个好理解,比如说你前一晚睡得好这不是一定的,而是有一定概率的。

那么,我现在表示一下你考试成功这件事的概率:(现在我们就假设影响因素是五个好了)
P ( A ) = P ( B 1 ) P ( A B 1 ) + P ( B 2 ) P ( A B 2 ) + P ( B 3 ) P ( A B 3 )   + P ( B 4 ) P ( A B 4 ) + P ( B 5 ) P ( A B 5 ) P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2) + P(B_3)P(A|B_3) \\ \space+ P(B_4)P(A|B_4) + P(B_5)P(A|B_5)
我们解释一下其中一项: P ( B 2 ) P ( A B 2 ) P(B_2)P(A|B_2) :这一项就可以解释为试卷简单而且在试卷简单的情况下你考试成功的概率。

证明部分: 我们只需要记得,全概率公式的证明从 A = A Ω A = AΩ 入手:
由于 A = A Ω = A i = 1 n B i A = AΩ = A\sum_{i=1}^nB_i ,因此,我们得出: P ( A ) = P ( A i = 1 n B i ) = i = 1 n P ( A B i ) P(A) = P(A\sum_{i=1}^nB_i) = \sum_{i=1}^nP(AB_i)
对于 P ( A B i ) P(AB_i) ,由乘法公式可知: P ( A B i ) = P ( B i ) P ( A B i ) P(AB_i) = P(B_i)P(A|B_i) ,因此,得到: P ( A ) = i = 1 n P ( B i ) P ( A B i ) P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)

三、贝叶斯公式

上一节的全概率公式中,我们是通过影响因素去推断结果发生的概率。而贝叶斯公式,则是通过一个已经发生的结果,去推断导致这个结果产生的那些影响因素的概率。

我们也是先给出定理:
B 1 , B 2 , , B n B_1, B_2, \cdots, B_n 是互斥完备群。且 P ( B i ) > 0 P(B_i) > 0 ,那么对于任意一个具有正概率的事件 A (这个是已经发生的结果),有: P ( B k A ) = P ( B k ) P ( A B k ) i = 1 n P ( B i ) P ( A B i ) P(B_k|A) = \frac{P(B_k)P(A|B_k)}{\sum_{i=1}^nP(B_i)P(A|B_i)}

乍一看这个公式巨复杂,因此我们要从思想上理解它。我们先证明它: P ( B k A ) = P ( B k A ) P ( A ) = P ( B k ) P ( A B k ) P ( A ) = P ( B k ) P ( A B k ) i = 1 n P ( B i ) P ( A B i ) (1) \begin{aligned} P(B_k|A) &=\frac{P(B_kA)}{P(A)}\tag{1}\\ &=\frac{P(B_k)P(A|B_k)}{P(A)}\\ &=\frac{P(B_k)P(A|B_k)}{\sum_{i=1}^nP(B_i)P(A|B_i)} \end{aligned}
上面的证明中,第一行的分子变换用的是乘法公式,第二行到第三行的分母变换用的是全概率公式

在实际中,我们更加常用的,是第二条表达式: P ( B k A ) = P ( B k ) P ( A B k ) P ( A ) P(B_k|A) = \frac{P(B_k)P(A|B_k)}{P(A)}

这个式子也好理解,我们画一张图:

那么,为了计算 P ( B 4 A ) P(B_4|A) ,我们首先得计算一下因为 B 4 B_4 条件而造成 A 发生得概率,也即是: P ( A B 4 ) = P ( B 4 ) P ( A B 4 ) P(A|B_4) = P(B_4)P(A|B_4) ,这个值也就是图中 B 4 B_4 区域和 A 重叠的面积。那么最后在看看这个面积占 整个 A 的比例,就可以知道影响因素 B 4 B_4 占多大的比重了。

其中,我们称: P ( B k ) P(B_k) 是先验概率, P ( B k A ) P(B_k|A) 是后验概率。

贝叶斯公式意义非常重大,像现在流行的神经网络,很大程度是基于贝叶斯估计的知识。下面我们看一个很有趣的例题,体会一下贝叶斯公式的威力,颠覆你的三观!

某地区患 X 病的可能性是 0.0004,现在有一个智能疾病诊断器,真正患病的人被这个机器检测显示患病的概率是 99%,被这个机器显示没病的概率是 1%;没病的人被这个机器检测显示没病的概率是99.9%,被机器检测有病的概率是 0.1%,那么,假如现在有一个被机器检测显示出他患病,那么,问这个人真正患病的概率是多大?

首先,请大家先根据自己的经验估计一下,这个准确率看起来很高的机器诊断这个人患病,一般来说,我们都会相信他确实患病。那么实际上是什么情况呢??

解:首先,我们设真正患病是事件 A ,被机器检测出来患病是事件 B。那么,题目问的就是: P ( A B ) P(A|B)
根据公式: P ( A B ) = P ( A B ) P ( B ) = P ( A ) P ( B A ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B|A)}{P(B)}
首先,我们计算 P ( B ) P(B) ,这就可能是两种情况:

  1. 人有病,机器检测出来显示有病
  2. 人没病,机器检测显示出来有病

那么, P ( B ) P(B) 就可以表示为: P ( B ) = P ( A ) P ( B A ) + P ( A ˉ ) P ( B A ˉ ) P(B) =P(A)P(B|A) + P(\bar{A})P(B|\bar{A})
带入数据得: P ( B ) = 0.0004 P(B) = 0.0004 x 0.99 + 0.9996 0.99 + 0.9996 x 0.001 = 0.0013956 0.001 = 0.0013956
而我们又知道: P ( A ) = 0.0004 P(A) = 0.0004 P ( B A ) = 0.99 P(B|A) = 0.99
因此,最终结果是: P ( A B ) = 0.0004 × 0.99 0.0013956 0.28 = 28 % P(A|B) = \frac{0.0004×0.99}{0.0013956} ≈ 0.28 = 28\%

天哪,看起来这么准的机器,说一个人有病居然这么不可信!

发布了140 篇原创文章 · 获赞 411 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/weixin_44586473/article/details/104535831