机器学习：Multinoulli分布与多项式分布

学习深度学习时遇见multinoulli分布，在此总结一下机器学习中常用的multinoulli分布与多项式分布之间的区别于关系，以便更好的理解其在机器学习和深度学习中的使用。

首先介绍一下其他相关知识。

Bernoulli分布（两点分布）

Bernoulli分布是单个二值随机变量的分布 $x\in \left \{ 0,1 \right \}$ 。它由单个参数 $\mu \in \left [ 0,1 \right ]$ 控制， $\phi$ 给出了随机变量等于1的概率。

$P(X=1)=\mu$

$P(X=0)=1-\mu$

$P(X=x|\mu )=\mu ^{x}(1-\mu )^{1-x}$

$E[X]=\mu$

$Var[X]=\mu(1-\mu)$

二项分布（n重Bernoulli分布）

二项分布（binomial distribution）用以描述N次独立的伯努利实验中有m次成功（即x=1）的概率，其中每次伯努利实验成功的概率为 $\mu \in \left [ 0,1 \right ]$ 。

$P(m|N,u)=\binom{N}{m}\mu ^{m}(1-\mu )^{N-m}$

$E[X]=N\mu$

$Var[X]=N\mu(1-\mu)$

多项分布

若将伯努利分布由单变量扩展为d维向量 $x$ ，其中 $x_{i} = \left \{ 0,1 \right \}$ 且 $\sum_{i=1}^{d}x_{i}=1$ ,并假设 $x_{i}$ 取1的概率为 $\mu_{i} \in \left [ 0,1 \right ]$ , $\sum_{i=1}^{d}\mu_{i}=1$ ，则将得到离散概率分布

$P(x|\mu )=\prod_{i=1}^{d}\mu_{i}^{x^{i}}$

$E[X_{i}]=\mu_{i}$

$Var[X_{i}]=\mu_{i}(1-\mu)_{i}$

在此基础上扩展二项分布则得到多项分布（nultinomial distribution），它描述了在N次独立实验中有 $m_{i}$ 次 $x_{i}=1$ 的概率。

$P(m_{1},...,m_{d}|N,\mu )=\frac{N!}{m_{1}!...m_{d}!}\prod_{i=1}^{d}\mu_{i}^{m_{i}}$

multinoulli分布（范畴分布、分类分布(categotical distribution)）

mutinoulli分布是指在具有k个不同状态的单个离散型随机变量上的分布，其中k是一个有限值。 mutinoulli分布由分布向量 $p\in \left [ 0,1 \right ]^{k-1}$ 参数化，其中每一个分量 $p_{i}$ 表示第i个状态的概率。最后的第k个状态的概率可以通过 $1-1^{T}p$ 给出。注意我们必须限制 $1^{T}p\leq 1$ 。mutinoulli分布经常用来表示对象分类的分布，所以我们很少假设状态1具有数值1之类的。因此我们通常不需要去计算mutinoulli分布的随机变量的期望和方差。

mutinoulli分布是多项式分布的一个特例。多项式分布是 $\left \{ 0,...,n \right \}^{k}$ 中的向量的分布，用于表示当对mutinoulli分布采样n次时k个类中的每一个被访问的次数。很多文章使用“多项式分布”而实际上说的是mutinoulli分布，但是他们并没有说是对 $n=1$ （一次实验）的情况，这点需要注意。大概意思就是说multinouli分布进行一次实验，得到了各个状态k的概率分布p，多项分布是重复对multinoulli分布进行n次采样实验，看k个类中每一个被采样到的次数。我觉得很像bernoulli分布与二项分布的关系。（大家有不同想法的可以留言讨论！）

参考文献：

《概率论与数理统计》韩旭里，谢永钦

《机器学习》周志华

《深度学习》Ian GoodFellow