学习中的多种概率分布

概率分布是随机变量所有可能结果及其相应概率的列表。

概率分布的目的：反向推演出某一个事态（随机变量）发生的概率，为决策提供依据，掌控事态变化的关键。

下图是多种概率分布的联系。

其中共轭（conjugate）表示的是互为共轭的概率分布；

Multi-Class 表示随机变量多于 2 个；

N Times 表示我们还会考虑先验分布 P(X)。

共轭的意思

共轭分布(conjugate distribution)的概率中一共涉及到三个分布：先验、似然和后验，如果由先验分布和似然分布所确定的后验分布与该先验分布属于同一种类型的分布，则该先验分布为似然分布的共轭分布，也称为共轭先验。

例如：

在贝叶斯概念理论中，如果后验分布 p(θ | x) 与先验分布 p(θ) 是相同的概率分布族，那么后验分布可以称为共轭分布，先验分布可以称为似然函数的共轭先验。

概率分布和特性

1、均匀分布（连续型）

均匀分布是指闭区间 [a, b] 内的随机变量，且每一个变量出现的概率是相同的。

2. 伯努利分布（离散型）

1、Bernoulli分布不考虑先验概率P(X)。因此，如果我们优化到最大的可能性，我们将很容易被过度拟合。

2、我们用二元交叉熵对二进制分类进行分类。它的形式类似于取Bernoulli分布的负对数。

二元交叉熵的一般表达式:

3. 二项分布（离散型）

1、参数n和p的二项分布是n个独立实验序列中成功次数的离散概率分布。

2、二项分布是通过指定预先选择的数目来考虑先验概率的分布。

二项分布就是重复n次独立的伯努利试验。

4.多贝努利分布，范畴分布(离散)

1、多伯努利称为范畴分布，是一种概率扩展超过2

2、交叉缠绕具有相同的形式，就像采取负对数的多伯努利分布。

5.多项式分布(离散),

范畴分布是多项式分布（Multinomial distribution）的一个特例，它与范畴分布的关系就像伯努利分布与二项分布之间的关系。

1、多项式分布与伯努利分布与二项分布的关系相同。

6.β分布(连续)

贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，它指一组定义在 (0,1) 区间的连续概率分布。均匀分布是 Beta 分布的一个特例，即在 alpha=1、 beta=1 的分布。

1、β分布共轭于二项式分布和Bernoulli分布。

2、通过构造，我们可以更容易地利用已知的先验分布来得到后验分布。

3、当β分布满足特殊情况时，均匀分布是相同的(alpha=1，β=1)。

7. 狄利克雷分布（连续型）

狄利克雷分布（Dirichlet distribution）是一类在实数域以正单纯形（standard simplex）为支撑集（support）的高维连续概率分布，是 Beta 分布在高维情形的推广。在贝叶斯推断中，狄利克雷分布作为多项式分布的共轭先验得到应用，在机器学习中被用于构建狄利克雷混合模型。

1、Dirichlet分布与多项式分布共轭。

2、如果k=2时，则为Beta分布。