条件概率

任何概率的大小都可以用图和面积来表示。在下图中，E是全体事件集，也就是说任何可能发生的事件都在E中，很显然E的面积是1，表示事件一定会发生。

假设左边的椭圆是事件A，它的面积小于1，不妨假设是 $P(A)$ ，那么A发生的概率也是它的面积。同理，右边的B的面积也是B发生的概率是 $P(B)$ 。

那么，A和B同时发生的概率是两个椭圆相交的面积，即图中中间的部分，是 $P(AB)$

假设我们知道了A发生的概率 $P(A)$ ，也知道了A和B同时发生的概率 $P(AB)$ ，现在想知道如果A发生了，此时B也会发生的概率。注意，这和AB同时发生是不同的，前者强调发生的先后顺序，即A发生的情况下，B有多大的可能性发生；而AB同时发生指的是同时性，即A和B交事件同时发生。

这看图很好理解，因为A发生了，所以 $P(A)$ 就变成了必然事件，此时所有的事件都在A中；再求解此时B发生的概率，根据图来看，只能是AB的交集部分了，所以很自然 $P(AB)$ 概率就是面积所占的百分比，即
$P(B|A) = \frac{P(AB)}{P(B)}$
假设我们知道 $P(AB)$ ，那么条件概率就很好计算了。

全概率公式

个人认为，从已知概率来推出未知概率，是全概率公式的核心思想，其实这也是任何自然科学的一个基本方法。

与条件概率一样，E是全体事件集，面积是1。下面椭圆是我们想要求解的事件A的概率（面积）。

事件的划分，很多经典教科书上都有解释，通俗一点讲，就是把一个全体事件集用我们知道概率的各个子事件进行分割。比如下图中我们知道 $B_1\cdots B_7$ 各个事件的概率，那么这7个事件就是一个划分。

假设我们还知道 $A$ 在 $B_i$ 下的条件概率，即 $P(A|B_i)$ 。根据图来看，很明显 $P(A)=\Sigma^{7}_{1}{P(AB_{i})}$

在这里插入图片描述
在结合上面的条件概率公式，就可以推出 $P(A)$ 来，假设B事件有N个
$P(A)=\Sigma^{N}_{1}P(AB_i)=\Sigma_{i=1}^{N}{P(A|B_i)P(B_i)}$
本质上讲，全概率公式是概率加法和条件概率的一个组合的形式，使用已知来求解未知。

贝叶斯公式

有了上面的全概率公式，贝叶斯公式就更容易理解了。上面的全概率公式，我们的目的是为了计算A可能发生的概率，也就是说计算的时候，事件A没有发生，我们称之为先验概率（学者们起了个高大上的名字…）。。而贝叶斯公式的使用情景正好与之相反，它的假设前提是A事件已经发生了，让我们计算 $A$ 在某个 $B_i$ 事件下发生的可能性，学者们称之为后验概率。。。。

举个形象的例子，假设 $A$ 表示一个蛋糕在晚上被偷吃， $B_1$ 到 $B_7$ 是7个馋嘴小孩子晚上不睡觉的概率，而 $P(AB_i)$ 表示小孩子 $i$ 不睡觉而且能偷吃到蛋糕的概率。很明显，全概率计算的是蛋糕被偷吃的概率，此时蛋糕还没有被偷吃。。。那么贝叶斯是，家长发现蛋糕被偷吃了，想要计算出每个小孩子偷吃这个蛋糕的概率，当然在这里假设的是，蛋糕只能被一个孩子吃掉。。。。

我们可以根据全概率计算出 $P(A)$ ，那么很显然， $P(B_i|A)$ 表示A发生了，是 $B_i$ 造成的可能性，即面积所占的A的比例即可。所以有公式：
$P(B_i|A)=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\Sigma_{j=1}^{N}P(A|B_j)P(B_j)}$

总结

全概率公式是概率加法的一个推广，贝叶斯公式是条件概率的一个推广。不论数据怎样变换，两者的核心思想是找一个已知的事件划分，来分割整个事件集。

从条件概率到贝叶斯公式

条件概率

全概率公式

贝叶斯公式

总结

猜你喜欢