正态分布(高斯分布)


Table of Contents

正态分布

概要

历史

正态分布的定义

概率密度函数

累积分布函数

生成函数

性质

动差或矩(moment)

中心极限定理

无限可分性

稳定性

标准偏差

相关分布

参量估计

参数的极大似然估计

计量误差

参考文献


正态分布


正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然社会科学来代表一个不明的随机变量。

                        X \sim N(\mu,\sigma^2),

则其概率密度函数

                   f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}

正态分布的数学期望值或期望值\mu等于位置参数,决定了分布的位置;其方差\sigma^2的开平方或标准差\sigma等于尺度参数,决定了分布的幅度。

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数\mu =0,尺度参数\sigma^2 = 1的正态分布。

概要

正态分布是自然科学行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的,理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如,采样分布均值是近似地正态的,即使被采样的样本的原始群体分布并不服从正态分布。另外,正态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布

历史

正态分布最早是棣莫弗在1718年著作的书籍的(Doctrine of Change),及1734年发表的一篇关于二项分布文章中提出的,当二项随机变量的位置参数n很大及形状参数p为1/2时,则所推导出二项分布的近似分布函数就是正态分布。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展到二项分布的位置参数为n及形状参数为1>p>0时。现在这一结论通常被称为棣莫佛-拉普拉斯定理

拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。

“钟形曲线”这个名字可以追溯到Jouffret他在1872年首次提出这个术语"钟形曲面",用来指代二元正态分布bivariate normal)。正态分布这个名字还被Charles S. PeirceFrancis GaltonWilhelm Lexis在1875分别独立地使用。这个术语是不幸的,因为它反映和鼓励了一种谬误,即很多概率分布都是正态的。(请参考下面的“实例”)

这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个例子,这个法则说“没有科学发现是以它最初的发现者命名的”。

正态分布的定义

有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数,这种方法能够表示随机变量每个取值有多大的可能性。累积分布函数是一种概率上更加清楚的方法,请看下边的例子。还有一些其他的等价方法,例如cumulant、特征函数动差生成函数以及cumulant-生成函数。这些方法中有一些对于理论工作非常有用,但是不够直观。请参考关于概率分布的讨论。

概率密度函数

四个不同参数集的概率密度函数(红色线代表标准正态分布)

正态分布概率密度函数均值为\mu 方差\sigma^2 (或标准差\sigma)是高斯函数的一个实例:

f(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right)

如果一个随机变量X服从这个分布,我们写作X ~ N(\mu, \sigma^2). 如果\mu =0并且\sigma =1,这个分布被称为标准正态分布,这个分布能够简化为

f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right)

正态分布中一些值得注意的量:

  • 密度函数关于平均值对称
  • 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
  • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
  • 95.449974%的面积在平均数左右两个标准差2 \sigma的范围内。
  • 99.730020%的面积在平均数左右三个标准差3 \sigma的范围内。
  • 99.993666%的面积在平均数左右四个标准差4 \sigma的范围内。
  • 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。

累积分布函数

上图所示的概率密度函数的累积分布函数

累积分布函数是指随机变量X小于或等于x的概率,用概率密度函数表示为:

F(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^x  \exp  \left( -\frac{(t - \mu)^2}{2\sigma^2} \ \right)\, dt.

正态分布的累积分布函数能够由一个叫做误差函数特殊函数表示:

\Phi (z)={\frac  12}\left[1+\operatorname {erf}\left({\frac  {z-\mu }{\sigma {\sqrt  2}}}\right)\right].

标准正态分布的累积分布函数习惯上记为\Phi,它仅仅是指\mu=0\sigma=1的值,

\Phi(x) =F(x;0,1)= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x \exp\left(-\frac{t^2}{2}\right) \, dt.

将一般正态分布用误差函数表示的公式简化,可得:

\Phi(z) = \frac{1}{2} \left[ 1 + \operatorname{erf} \left( \frac{z}{\sqrt{2}} \right) \right] .

它的反函数被称为反误差函数,为:

\Phi^{-1}(p) = \sqrt2 \; \operatorname{erf}^{-1} \left(2p - 1 \right) .

该分位数函数有时也被称为probit函数。probit函数已被证明没有初等原函数。

正态分布的分布函数\Phi(x)没有解析表达式,它的值可以通过数值积分泰勒级数或者渐进序列近似得到。

生成函数

矩母函数

动差生成函数或矩生成函数或动差产生函数被定义为\exp(tX)的期望值。

正态分布的动差产生函数如下:

M_X(t)\, = \mathrm{E} \left(  e^{tX} \right)
  = \int_{-\infty}^{\infty}  \frac  {1}  {\sigma \sqrt{2\pi} }  e^{\left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)}  e^{tx} \, dx
  = e^{ \left(  \mu t + \frac{\sigma^2 t^2}{2} \right)}

可以通过在指数函数内配平方得到。

特征函数

特征函数被定义为\exp (i t X)期望值,其中i是虚数单位. 对于一个常态分布来讲,特征函数是:

\phi_X(t;\mu,\sigma)\! = \mathrm{E} \left[  \exp(i t X) \right]
  = \int_{-\infty}^{\infty}  \frac{1}{\sigma \sqrt{2\pi}}  \exp  \left(- \frac{(x - \mu)^2}{2\sigma^2}  \right)  \exp(i t x) \, dx
  = \exp \left(  i \mu t - \frac{\sigma^2 t^2}{2} \right) .

把矩生成函数中的t换成i t就能得到特征函数。

性质

正态分布的一些性质:

  1. 如果X \sim N(\mu, \sigma^2) \,ab实数,那么a X + b \sim N(a \mu + b, (a \sigma)^2) 
  2. 如果X \sim N(\mu_X, \sigma^2_X)Y \sim N(\mu_Y, \sigma^2_Y)统计独立的正态随机变量,那么:
    • 它们的和也满足正态分布U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) 
    • 它们的差也满足正态分布V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y).
    • UV两者是相互独立的。(要求X与Y的方差相等)
  3. 如果X \sim N(0, \sigma^2_X)Y \sim N(0, \sigma^2_Y)是独立正态随机变量,那么:
    • 它们的积X Y服从概率密度函数为p的分布

      p(z) = \frac{1}{\pi\,\sigma_X\,\sigma_Y} \; K_0\left(\frac{|z|}{\sigma_X\,\sigma_Y}\right),其中K_0是修正贝塞尔函数(modified Bessel function)

    • 它们的比符合柯西分布,满足X/Y \sim \mathrm{Cauchy}(0, \sigma_X/\sigma_Y).
  4. 如果X_1, \cdots, X_n为独立标准正态随机变量,那么X_1^2 + \cdots + X_n^2服从自由度为n卡方分布


动差或矩(moment)

一些正态分布的一阶动差如下:

阶数 原点矩 中心矩 累积量
0 1 0  
1 \mu 0 \mu
2 \mu^2 + \sigma^2 \sigma^2 \sigma^2
3 \mu^3 + 3\mu\sigma^2 0 0
4 \mu^4 + 6 \mu^2 \sigma^2 + 3 \sigma^4 3 \sigma^4 0

标准正态的所有二阶以上的累积量为零。


中心极限定理

正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。

正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。

  • 参数为np二项分布,在n相当大而且p接近0.5时近似于正态分布(有的参考书建议仅在n pn(1 - p)至少为5时才能使用这一近似)。

近似正态分布平均数为\mu = n p且方差为\sigma^2 = n p (1 - p).

  • 泊松分布带有参数\lambda当取样样本数很大时将近似正态分布\lambda.

近似正态分布平均数为\mu = \lambda且方差为\sigma^2 = \lambda.

这些近似值是否完全充分正确取决于使用者的使用需求

无限可分性

正态分布是无限可分的概率分布。

稳定性

正态分布是严格稳定的概率分布。

标准偏差

深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%,根据正态分布,两个标准差之内的比率合起来为95%;三个标准差之内的比率合起来为99%

在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。

相关分布

参量估计

参数的极大似然估计

多元正态分布协方差矩阵的估计的推导是比较难于理解的。它需要了解谱原理(spectral theorem)以及为什么把一个标量看做一个1×1矩阵(matrix)的迹(trace)而不仅仅是一个标量更合理的原因。


计量误差

饮料装填量不足与超量的概率[编辑]

某饮料公司装瓶流程严谨,每罐饮料装填量符合平均600毫升,标准差3毫升的正态分配法则。随机选取一罐,求(1)容量超过605毫升的概率;(2)容量小于590毫升的概率。

容量超过605毫升的概率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475

容量小于590毫升的概率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004

6-标准差(6-sigma或6-σ)的品质管制标准

6-标准差(6-sigma或6-σ),是制造业流行的品质管制标准。在这个标准之下,一个标准正态分配的变量值出现在正负三个标准差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是说,这种品质管制标准的产品不良率只有万分之二十六。假设例中的饮料公司装瓶流程采用这个标准,而每罐饮料装填量符合平均600毫升,标准差3毫升的正态分配。那么预期装填容量的范围应该多少?

6-标准差的范围 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此,预期装填容量应该介于591至609毫升之间。


参考文献

  1.  Normal Distribution, Gale Encyclopedia of Psychology
  2. Casella & Berger (2001, p. 102)
  3. Shaou-Gang Miaou; Jin-Syan Chou. 《Fundamentals of probability and statistics》. 高立图书. 2012: 第147页. ISBN 9789864128990.

猜你喜欢

转载自blog.csdn.net/hhaowang/article/details/83898881