前言

贝叶斯估计，贝叶斯优化，先验概率和后验概率，配上一堆概率论的东西…成功达到了一种吓唬人的作用，让人误以为是一种高大上的算法。本文希望以最简单通俗的例子，深入浅出地讲述这一贝叶斯体系的算法本质，来阐述这并非什么高深的算法，而是我们生活中与生俱来最简单的思想。

条件概率

个人认为，贝叶斯优化中，唯一需要的概率公式就是这个：

$P(AB) = P(A) \times P(B|A) = P(B) \times P(A|B)$

很容易理解： AB同时发生，就是A发生的情况下， B也发生。或者B发生的情况下， A也发生。 两种理解分别对应 $P(AB)$ 的两种表示。

先验概率和后验概率

个人认为，这种东西，从概念上讲是最难理解的，但是用例子说明就很简单，因此，我举一个例子：

现在有两枚硬币，硬币A 与硬币B，硬币A 掷出去朝上概率为0.7，朝下为0.3。硬币B朝上概率为0.4，朝下为0.6。现在你从中任选一枚硬币掷，已知，选中硬币A的概率为0.8，选中硬币B的概率为0.2 。

	选中概率	朝上概率	朝下概率
硬币A	0.8	0.7	0.3
硬币B	0.2	0.4	0.6

现在，你掷出硬币，发现硬币正面朝上，这时要求判断：你选出的硬币是A还是B？

显然，仅从结果来看， A和B都是有可能的。但所谓贝叶斯优化，就是我们要作出 概率最大的决策。这个例子一目了然，显然，硬币A的可能性远远高于B。下面，通过贝叶斯来分析一下：

根据条件概率的定义，我们可以用 $P(A|硬币正面朝上)$ 来表示基于目前已发生的硬币朝上的条件下，我们选硬币A的可能性。同理， $P(B|硬币正面朝上)$ 来表示选择硬币B的可能性。而贝叶斯优化所要做的，就是判断两者的大小关系，选择其中更大的一个。

那么，根据条件概率公式，我们首先有：

$P(A|硬币正面朝上) \times P(硬币正面朝上)= P(硬币正面朝上|A) \times P(A)$

这里引出概念：

$P(A)$ 是选择A的概率，和结果（硬币朝上）无关的基于经验的概率，被称为 先验概率。在本例中，先验概率就是 $P(A)=0.8$ 和 $P(B)=0.2$ 。
$P(A|硬币正面朝上)$ 则被称为后验概率，即根据目前发生的结果（硬币朝上）反推真相（选择了A还是B）的概率。
从上式中就能看出，后验概率和先验概率是相关的。
贝叶斯判定准则，就是选择后验概率最大的情况。这也最符合我们的逻辑，根据已观测到的事实，反推最优可能造成该事实的原因是什么。

显然：
$P(A|硬币正面朝上) = \frac{P(硬币正面朝上|A) \times P(A) }{ P(硬币正面朝上)}\\ P(B|硬币正面朝上) = \frac{P(硬币正面朝上|B) \times P(B) }{ P(硬币正面朝上)}$
由于分母相同（事实上贝叶斯优化中都是如此），我们只需要比较分母的大小：

根据例子的数据， $P(A|硬币正面朝上) =0.7 * 0.8 = 0.56$ ;
$P(B|硬币正面朝上) =0.4 * 0.2 = 0.08$ ;
差距十分悬殊，毫无疑问，基于 硬币朝上这一观测现象结果，选择A的概率是更大的。这个例子是小学初中的水平，但是这就是贝叶斯优化的实质： 选择后验概率更大的那一个。
$P(硬币正面朝上|A)$ 被称为类条件概率。

在机器学习中，先验概率和类条件概率很容易由训练集得到。比如总共有10000枚硬币（10000个样本），其中8000枚是A硬币， 2000枚是B硬币（标签）。那么我们认为先验概率就是 $P(A)=0.8$ , $P(B)=0.2$ 。

结语

就如同著名的西瓜分类例子之中：我们在众多的西瓜（样本）里，发现好瓜的条纹清晰的概率远远大于坏瓜，那显然，当我们又看到一个新的条理清晰的瓜时，我们有理由判定它大概率是好瓜。这就是贝叶斯分类的实质，也是我们生活中最符合常理的逻辑。

理解贝叶斯优化：先验概率与后验概率

前言

条件概率

先验概率和后验概率

结语

猜你喜欢