文章目录

一、铺垫部分

1.1 条件概率

1.1.1 条件概率的一些性质

1.2 乘法公式

二、全概率公式
三、贝叶斯公式

一、铺垫部分

1.1 条件概率

我们之前所讨论的诸如： $P(A)$ 等，都是无条件公式。下面我们介绍条件概率公式
条件概率公式，我们用 $P(A|B)$ ，表示在事件 $B$ 发生的前提下，事件 $A$ 发生的概率。

举个栗子来看看条件概率和无条件概率的区别：还是投骰子吧，事件 $A$ = {点数是2}，事件 $B$ = {点数是偶数}，问： $P(A)$ ， $P(A|B)$ ：
首先， $P(A)$ ，很简单，一个无条件概率，那么样本空间的总数是 6 ，因此概率就是： $\frac{1}{6}$

下面看看 $P(A|B)$ ，在事件 $B$ 发生的条件下，这句话，你品，你细品，有没有发现：我们的样本空间缩小了！因为前提是事件 $B$ 已经发生，所以所有可能的样本情况就是：2，4，6。因此，在这3个样本的情况下，投出点数是 2 的概率就应该是 $\frac{1}{3}$

下面介绍条件概率的计算方法： $P(A|B) = \frac{P(AB)}{P(B)}$
不过一般看起来用概率相除不一定总是那么顺利，因为有可能 $P(AB)$ 不太容易求解，这时候我们用有利样本数比上新的样本空间总数也是一种好办法！

1.1.1 条件概率的一些性质

非负性，这很好理解： $P(A|B) ≥ 0）$
规范性： $P(Ω|B) = 1$
（易错！）若 $A_1,A_2,\cdots,A_n$ 是一系列互斥事件，那么有： $P(\sum_{i=1}^nA_i|B) = \sum_{i=1}^nP(A_i|B)$
我们发现了吗：不管事件 $A$ 的下标怎么变，条件是始终不会改变的！！
因此，特别要记忆的： $P(A|B) = 1-P(\bar{A}|B)$

1.2 乘法公式

从上一节的学习中，我们知道： $P(A|B) = \frac{P(AB)}{P(B)}\\$
那么我们换一下，就变成了： $P(AB) = P(B)P(A|B)$ ，这就是我们的乘法公式！

拓展到 $n$ 个事件也是一样的，我们有： $P(A_1A_2A_3\cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1})$

你可能觉得这个公式这么长，这么复杂，会不会很难记？其实，如果我们分析一下这个很长一串的公式，它的实际意义是相当清晰的。我们也写一个三个事件的情况：
$P(ABC) = P(A)P(B|A)P(C|AB)$

我们看看这个公式的意义：我们试想，你现在在一个布满陷阱的迷宫里面~~，你需要走三步才能逃脱这个迷宫，你有很多路径可以选，但是只有一条路是正确的，（也就是沿着 $A\to B\to C$ )，走错了其中任何一条路，你就会因遭遇机关而再也无法逃出去。

所以，你逃出迷宫的概率，就可以用 $P(ABC)$ 表示了，所以， $P(A)$ 就表示你第一步走对了， $P(B|A)$ 就表示在第一步走对了的情况下，你又走对了第二步！ $P(C|AB)$ 表示在前两步都走对了的前提下，你成功地找到了最后一条路！

扫描二维码关注公众号，回复： 10496830 查看本文章

这样是不是就很容易记忆了？哈哈

二、全概率公式

我们先把全概率公式的定义给出来：
定理：假设 $B_1, B_2, \cdots, B_n$ 是一个互斥完备群（也即是它们两两互斥，而且 $\sum_{i=1}^nB_i = Ω$ ），而且 $P(B_j) > 0$ ，那么对于任何的事件 $A$ ，我们有： $P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)$

这个公式想表达的意义是什么呢？我们可以这样理解：

假设我们准备参加一场数学考试，如果我们设考试成功为事件 A。那么，能够造成你考试成功的因素有哪些呢？我们知道比如说：1. 你日积月累的努力 2. 试卷题目简单 3. 你那天早餐吃得不错 4. 你前一晚睡得不错甚至可能还有 5. 运气也不错、、、我们把这些能够影响最终事件 A 的称为影响因素，用 $B$ 来表示。这每一个因素都有自己发生的概率，这个好理解，比如说你前一晚睡得好这不是一定的，而是有一定概率的。

证明部分：我们只需要记得，全概率公式的证明从 $A = AΩ$ 入手：
由于 $A = AΩ = A\sum_{i=1}^nB_i$ ，因此，我们得出： $P(A) = P(A\sum_{i=1}^nB_i) = \sum_{i=1}^nP(AB_i)$
对于 $P(AB_i)$ ，由乘法公式可知： $P(AB_i) = P(B_i)P(A|B_i)$ ，因此，得到： $P(A) = \sum_{i=1}^nP(B_i)P(A|B_i)$

三、贝叶斯公式

上一节的全概率公式中，我们是通过影响因素去推断结果发生的概率。而贝叶斯公式，则是通过一个已经发生的结果，去推断导致这个结果产生的那些影响因素的概率。

我们也是先给出定理：
设 $B_1, B_2, \cdots, B_n$ 是互斥完备群。且 $P(B_i) > 0$ ，那么对于任意一个具有正概率的事件 A （这个是已经发生的结果），有： $P(B_k|A) = \frac{P(B_k)P(A|B_k)}{\sum_{i=1}^nP(B_i)P(A|B_i)}$

乍一看这个公式巨复杂，因此我们要从思想上理解它。我们先证明它： $\begin{aligned} P(B_k|A) &=\frac{P(B_kA)}{P(A)}\tag{1}\\ &=\frac{P(B_k)P(A|B_k)}{P(A)}\\ &=\frac{P(B_k)P(A|B_k)}{\sum_{i=1}^nP(B_i)P(A|B_i)} \end{aligned}$
上面的证明中，第一行的分子变换用的是乘法公式，第二行到第三行的分母变换用的是全概率公式

在实际中，我们更加常用的，是第二条表达式： $P(B_k|A) = \frac{P(B_k)P(A|B_k)}{P(A)}$

这个式子也好理解，我们画一张图：

那么，为了计算 $P(B_4|A)$ ，我们首先得计算一下因为 $B_4$ 条件而造成 A 发生得概率，也即是： $P(A|B_4) = P(B_4)P(A|B_4)$ ，这个值也就是图中 $B_4$ 区域和 A 重叠的面积。那么最后在看看这个面积占整个 A 的比例，就可以知道影响因素 $B_4$ 占多大的比重了。

其中，我们称： $P(B_k)$ 是先验概率， $P(B_k|A)$ 是后验概率。

贝叶斯公式意义非常重大，像现在流行的神经网络，很大程度是基于贝叶斯估计的知识。下面我们看一个很有趣的例题，体会一下贝叶斯公式的威力，颠覆你的三观！

某地区患 X 病的可能性是 0.0004，现在有一个智能疾病诊断器，真正患病的人被这个机器检测显示患病的概率是 99%，被这个机器显示没病的概率是 1%；没病的人被这个机器检测显示没病的概率是99.9%，被机器检测有病的概率是 0.1%，那么，假如现在有一个被机器检测显示出他患病，那么，问这个人真正患病的概率是多大？

首先，请大家先根据自己的经验估计一下，这个准确率看起来很高的机器诊断这个人患病，一般来说，我们都会相信他确实患病。那么实际上是什么情况呢？？

解：首先，我们设真正患病是事件 A ，被机器检测出来患病是事件 B。那么，题目问的就是： $P(A|B)$
根据公式： $P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(A)P(B|A)}{P(B)}$
首先，我们计算 $P(B)$ ，这就可能是两种情况：

人有病，机器检测出来显示有病
人没病，机器检测显示出来有病

那么， $P(B)$ 就可以表示为： $P(B) =P(A)P(B|A) + P(\bar{A})P(B|\bar{A})$
带入数据得： $P(B) = 0.0004$ x $0.99 + 0.9996$ x $0.001 = 0.0013956$
而我们又知道： $P(A) = 0.0004$ ， $P(B|A) = 0.99$
因此，最终结果是： $P(A|B) = \frac{0.0004×0.99}{0.0013956} ≈ 0.28 = 28\%$

天哪，看起来这么准的机器，说一个人有病居然这么不可信！

凝望，划过星空.scut

发布了140 篇原创文章 · 获赞 411 · 访问量 4万+

私信关注

【概率论与数理统计 Probability and Statistics 3】—— （important）全概率公式和贝叶斯公式