泊松分布的来源—公式推导—应用

一。泊松分布由二项分布引出（二者都是离散型随机变量）

首先必须由二项分布引出：

如果做一件事情成功的概率是 p 的话，那么独立尝试做这件事情 n 次，成功次数的分布就符合二项分布。展开来说，在做的 n 次中，成功次数有可能是 0 次、1 次 …… n次。成功 i 次的概率是：

( n 中选出 i 项的组合数) * p ^ i * (1-p)^ (n-i)

以上公式很容易推导，用一点概率学最基本的知识就够了。因为每一特定事件成功的概率是 p ，不成功的概率是 1-p 。i 次成功的事件可以任意分布在总共的 n 次尝试中。把它们乘起来就是恰好成功 i 次的概率。

当我们把二项分布推而广之后，就可以得到波松分布。

可以这样考虑，在一个特定时间内，某件事情会在任意时刻随机发生（前提是，每次发生都是独立的，且跟时间无关）。当我们把这个时间段分成非常小的时间片构成时，可以认为，每个时间片内，该事件可能发生，也可能不发生。几乎可以不考虑发生多于一次的情况（因为时间片可被分的足够小）。

当时间片分的越小，该时间片内发生这个事件的概率 p 就会成正比的减少。即：特定时间段被分成的时间片数量 n 与每个时间片内事件发生的概率 p 的乘积 n*p 为一个常数。这个常数表示了该事件在指定时间段发生的频度。

回过头来再来看这段时间内，指定事件恰好发生 i 次的概率是多少？代入上面推导出来的公式得到：

n * (n-1)... (n-i+1) / i! * p^i * (1-p) ^ (n-i) => np(np-p)...(np-ip+p) / i! * ((1-p) ^ (-1/p))^(-np) / (1-p) ^i

当 n 趋向无穷大时，p 趋向 0 。而此时 (1-p)^(-1/p) 趋向 e 。注：详细推导过程如下

上面这个公式可以划简为 lamda ^ i / i! * e ^ - lamda (lamda=n*p)

这个公式推导过程不复杂，耐心点一看就明白。而这个关于 i 的分布就是著名的泊松分布了。

二。泊松分布的应用：

首先泊松分布只能用来计算次数，例如汽车站候车人数就符合泊松分布，第一个人候车与第二个人后车没有关系，就像二项分布的独立重复试验一样。见图，

理解二项分布与泊松分布的关系

在推算某些特殊事件在一段时间内可能发生次数的时候经常会用到泊松分布。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。

机器学习中的应用：

LDA的标准过程中单词出现的次数一般是由泊松分布来产生的。