1 高斯分布

1 高斯分布

高斯分布也称为正态分布,大家都很熟悉,但有些性质这里有必要提下。一元高斯分布的密度函数为:

p ( x ) = 1 2 π σ e x p ( ( x μ ) 2 2 σ 2 ) p(x) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(x-\mu)^2}{2\sigma^2})

从函数图像看,高斯密度函数是个钟形曲线,关于 μ \mu 对称,在 μ \mu 处函数值最大,远离中心点 μ \mu ,函数值快速下降,下降速度是指数平方。远离中心点 3 σ 3\sigma 距离,函数值几乎为零,故函数值几乎位于中心点正负 3 σ 3\sigma 范围内。 μ \mu 称为位置参数, σ \sigma 称为尺度参数。

高斯分布的期望为 μ \mu ,方差为 σ 2 \sigma^2 。期望为 0 ,方差为 1 的高斯分布称为标准高斯分布,方差为 1 也称为单位方差。

多元高斯分布,其密度函数为:

p ( x ) = 1 ( 2 π ) n / 2 ( d e t Σ ) 1 / 2 e x p ( 1 2 ( x μ ) T Σ 1 ( x μ ) ) p(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}(det \Sigma)^{1/2}} exp(-\frac{1}{2} (\mathbf{x}-\mathbf{\mu})^T \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}))

期望为均值向量 μ \mathbf{\mu} ,协方差为矩阵 Σ \Sigma 是对称正定矩阵, n n 为向量维度。

高斯分布在理论和实践中特别重要,因为其具有如下重要性质。

1、高斯分布的线性变换仍然是高斯分布,即 x \mathbf{x} 是高斯随机向量, y = A x \mathbf{y}=A\mathbf{x} 是其线性变换,则 y \mathbf{y} 也是高斯随机向量,其均值向量为 A μ x A\mathbf{\mu}_{x} ,协方差矩阵为 A Σ x A T A\Sigma_x A^T

2、高斯分布的边缘密度和条件密度仍然是高斯分布。

这两条性质使高斯分布在数学上十分容易处理,使用起来很方便。其他分布如均匀分布一般没有上面两种性质,这表明高斯分布的独特性。

3、独立性和不相关性等价,即协方差矩阵为对角阵时,高斯随机向量每个分量是独立的。反之亦然,高斯随机向量每个分量是独立时,协方差矩阵为对角阵。

对于其他分布的随机变量,虽独立性能推导出不相关性,但不相关性不等价于独立性,独立性是强于相关性的,也就是说,不相关性只考虑了二阶矩,但独立性不仅包含二阶矩,还包含各种高阶矩。高斯分布仅由一阶和二阶矩决定,这也是高斯分布独特性的表现。

如果协方差矩阵 Σ \Sigma 不是对角阵时,可通过线性变换使变换后的向量是独立的,变换方法就是 PCA 变换。假设高斯随机向量中心化后 x \mathbf{x} ,均值向量为 0 \mathbf{0} ,因为协方差矩阵 Σ \Sigma 是对称正定矩阵,根据对称矩阵谱分解定理有 Σ = U D U T \Sigma = U D U^T ,则随机向量 y = U T x \mathbf{y}=U^T\mathbf{x} 的协方差矩阵为对角阵,分量独立。进一步,随机向量 z = D 1 / 2 y = D 1 / 2 U T x \mathbf{z} = D^{-1/2}\mathbf{y} = D^{-1/2}U^T\mathbf{x} 的协方差矩阵为单位阵,称为白化独立高斯分布。

4、高斯分布具有极大熵。

熵的定义。熵是信息论的基本概念。对于离散随机变量,熵定义为:

H ( X ) = i P ( X = a i ) l o g P ( X = a i ) H(X) = -\sum_i P(X=a_i)log P(X=a_i)

式中, a i a_i X X 的可能取值, P ( X = a i ) P(X=a_i) 是其概率。熵的物理含义是,随机变量越是『随机』,也就是说,越是难以预测和非结构化,熵就越大。如果对随机变量进行编码,则熵大致上反映了平均最小编码长度,熵越大则编码长度越大。

对于连续随机变量 x \mathbf{x} ,其密度函数为 p ( x ) p(\mathbf{x}) ,熵定义为:

H = p ( x ) l o g p ( x ) d x H = -\int p(\mathbf{x})log p(\mathbf{x}) d\mathbf{x}

同理,如果随机变量集中在某个小的区间,熵就小。

协方差矩阵为单位阵的所有随机变量中,高斯变量具有极大熵,这说明高斯分布最随机,最难以预测和无结构。这是高斯分布物理上的独特性。

线性变换的熵,令 y = A x \mathbf{y}=A\mathbf{x} ,则 H ( y ) = H ( x ) + l o g d e t A H(\mathbf{y}) = H(\mathbf{x}) + log |det A| 。这表明熵不是尺度不变的。但当变换矩阵是正交矩阵时 A = Q A=Q ,由于 d e t Q = 1 |det Q| = 1 ,有 H ( y ) = H ( x ) H(\mathbf{y}) = H(\mathbf{x}) 成立。

5、中心极限定理

假设从均匀分布中随机抽取 n n 个样本,则这些样本显然是均匀分布。当 n n 较大时,这些样本均值接近分布均值,当 n n 无穷大时,这些样本均值依概率无限接近分布均值。这些都是显而易见的结论。我们考虑中间状态,我们每次抽取 m m 个样本并计算其均值,抽取 n n 次,每次得到一个均值,现在考虑所得到的 n n 个均值满足什么分布?根据上面结论,当 m = 1 m=1 时,均值就是单个样本值,分布显然还是原来的分布即均匀分布。当 m m 趋于无穷大时,均值应该无限接近一个常数–分布均值,则均值分布必然很集中,在分布均值附近概率很高,稍微远离分布均值,概率快速减小。这个概率密度性质非常类似高斯分布!中心极限定理从理论上给出了确定的答案,设从均值为 μ \mu 、方差为 σ 2 \sigma^2 (有限)的任意分布中随机抽取 m m 个样本,当 m m 充分大时,这 m m 个样本均值的分布近似服从均值为 μ \mu 、方差为 σ 2 / m \sigma^2/m 的高斯分布。

有两点需要指出,第一点,实践中 m m 需要充分大,但也不需要太大。一般认为 m > 30 m>30 即可让中心极限定理发挥作用。第二点,样本分布是任意分布,可以是已知也可以是未知的,样本均值分布都服从高斯分布。

上述定理是中心极限定理最简单又最常用的一种形式,其实中心极限定理是概率论中的一组定理。上述定理中样本都来自同一分布,其实在适当的条件下,随机抽取的 m m 个样本不需要来自同一分布,可以来自不同分布,每个分布可以是任意分布,只要 m m 个样本满足独立性要求,即每个样本之间是互相独立的,则这些分布不同的 m m 个样本均值的分布还是近似服高斯分布。即对于大量独立随机变量来说,不论其中各个随机变量的概率密度函数是什么,也不论它们是已知还是未知,当独立随机变量的个数充分大时,它们的均值分布函数都可以用正态分布来近似。这个广义中心极限定理是数理统计和误差分析的理论基础。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。测量误差就可以看作是受很多独立微小因素的影响,所以服从正态分布,这是生产中认为误差服从高斯分布的理论基础。生物体很多特征也服从高斯分布,比如身高、智力等。中心极限定理是高斯分布在实践中广泛存在的理论基础,表明高斯分布的普遍性。

需要强调一点,收入分布不符合高斯分布,虽然一个人的收入也受很多因素影响,比如家庭、教育、工作、运气等,但这些因素不是独立的,而且正相关,会彼此加强,如家庭背景好,则有更大机会获得好教育,高薪工作,遇到好机会,反之亦然,所以有钱人会更有钱,穷人会更穷,直到贫富差距极大,社会不稳定,要么改革要么革命,社会从新洗牌。收入不满足中心极限定理中各因素独立要求,故分布不是高斯分布,而是对数高斯分布,即 l o g x log x 是高斯分布。该分布特点是长尾分布,即收入远高于平均收入的人群数量较大。相比于高斯分布,身高远高于平均身高的人群数量是很少的,因为高斯分布密度函数是指数平方下降。

再强调一点,收入会导致富者越富,穷者越穷;但身高并不会导致子代身高越来越高,或子代身高越来越矮的现象。即有钱人的子孙会越来越有钱,穷人的子孙会越来越有穷;但高个子人的子孙不会越来越高,矮个子人的子孙不会越来越矮。否则经过多代,就会出现大量很高的人或很矮的人,但实际中并没有出现这种现象,而是高个子人的子孙虽然高,但会比父辈矮些;矮个子人的子孙虽然矮,但会比父辈高些,这表现出人的身高会向平均身高靠拢,这种现象被称为回归现象。

高斯分布由于具有上述性质,使其成为最重要的分布。

猜你喜欢

转载自blog.csdn.net/jhshanvip/article/details/107299193