优化算法 - 正态分布 and 最小二乘法

对于正态分布,一直以来只闻其名不见其实,只听得鼎鼎大名,而不知由来。在初高中时学习概率,只死记硬背正态分布的形式为:

N ( μ , σ 2 ) = 1 2 π σ e ( x μ ) 2 2 σ 2 N(μ,σ^2)=\frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^2}}

但对于此公式是如何推导出来的并不了解,正巧又听闻其与最小二乘法有着密切联系,那么本着正本清源的态度,此次就对他们一探究竟。

参考内容 《正态分布的前生今世》- 我爱自然语言处理

  • 最小二乘法的过往

    最小二乘法的诞生与很多科学理论类似,是为了解决天文学以及测地学的问题。例如,计算行星的运行轨道,测定地球子午线长度,定位经纬度。

    在解决这些问题时,无不需要大量的观测,再通过观测数据解决目标问题。然而观测数据总是有误差的,为了在有误差的数据上尽可能精确地计算结果,过去的人们一般使用多次测量取均值作为估计值。虽然从结果上来讲是好的,但是这种方法缺乏理论依据。

    对于一个数学模型,我们目标估计量为 β = (β0,β1,…,βp,),另有若干个个可以测量的 X = (x1,x2,…,xp) 和 y = (y1,y2,…,yn),那么如何通过观测数据求解出参数 (β0,β1,…,βp,)呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。

    { y 1 = β 0 + β 1 x 11 + + β p x p 1 y 2 = β 0 + β 1 x 12 + + β p x p 2 y n = β 0 + β 1 x 1 n + + β p x p n \begin{cases} \begin{array}{lll} y_1 = \beta_0 + \beta_1x_{11} + \cdots + \beta_px_{p1} \\ y_2 = \beta_0 + \beta_1x_{12} + \cdots + \beta_px_{p2} \\ \vdots \\ y_n = \beta_0 + \beta_1x_{1n} + \cdots + \beta_px_{pn} \end{array} \end{cases}

    但是面临的一个问题是,当 n>p+1 时,方程组无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过 一定的对数据的观察,把 n 个线性方程分为 p+1组,然后把每个组内的方程线性求和,归并为一个方程,从而就把 n 个方程的方程组转化为包含 p+1 个方程的方程组,进而求解。这些方法初看有一些道理,但是过于特殊化, 无法形成统一处理这一类问题的一个通用解决框架。

    对于此,勒让德提出了有效的解决办法:最小二乘法。其基本思想为,既然存在误差,那么所有误差的累计误差可形式化为:

    = ( ) 2 = i ( y i β x i ) 2 累积误差 = \sum( 理论值 - 观测值)^2=\displaystyle\sum_{i}(y_i-βx_i)^2

    基于此,定义 e i = y i β x i e_i=y_i-βx_i ,我们只需要导出能使累计误差最小的参数即可:

    β ^ = a r g m i n β i = 1 n e i 2 \hat{\beta}=argmin_{\beta} \sum_{i=1}^n e_i^2

    勒让德在论文中对最小二乘法的优良性做了几点说明:

    • 最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位;
    • 计算中只需求偏导后求解线性方程组,计算过程明确便捷;
    • 最小二乘可以导出算术平均值作为估计值。

    对于最后一点,从统计学的角度来看是非常重要的一个性质。推理如下:假设真值为 yi,xi,i = 1,2,…,n 为 n 次测量值,每次测量的误差为 e i = x i y i e_i=x_i−y_i ,按最小二乘法,累计误差为:

    L ( y i ) = i = 1 n e i 2 = i = 1 n ( y i x i ) 2 L(y_i) = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i-x_i)^2

    求解 使得 L(yi) 达到最小,正好是算术平均 x ˉ = i = 1 n x i n \bar{x} = \frac{\sum_{i=1}^n x_i}{n}

    由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。

  • 正态分布的前生

    我们在数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平均能够消除误差,提高精度。 平均有如此的魅力,道理何在,之前没有人做过理论上的证明。 算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布? 算术平均的优良性和误差的分布有怎样的密切联系?

    伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

    • 误差是对称分布的;
    • 大的误差出现频率低,小的误差出现频率高。

    用数学的语言描述,也就是说误差分布函数 f(x) 关于 0 对称分布,概率密度随 |x| 增加而减小, 这两个定性的描述都很符合常识。

    许多天文学家和数学家开始了寻找误差分布曲线的尝试,大数学家拉普拉斯也加入到了寻找误差分布函数的队伍中,不过最终只得到了著名的“拉普拉斯分布”,距离正态分布曲线仅一步之遥。
    拉普拉斯分布
    (拉普拉斯分布)

    而后伟大的高斯在一次计算谷神星轨道过程中解出了正态分布曲线:

    高斯设真值为 θ, (x1,⋯,xn) 为 n 次独立测量值, 每次测量的误差为 e i = x i θ e_i=x_i−θ , 假设误差 ei 的概率密度函数为 f(e), 则测量值的联合概率为 n 个误差的联合概率,记为:

    L ( θ ) = L ( θ ; x 1 ,   , x n ) = f ( e 1 ) f ( e n ) = f ( x 1 θ ) f ( x n θ ) L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)

    但在求解过程中,高斯没有采用贝叶斯的推理方式,而是直接取 L(θ) 达到最大值的 θ ^ \hatθ 作为 θ 的估计值,即:

    θ ^ = a r g m a x θ L ( θ ) \hat{\theta}= argmax_{\theta} L(\theta)

    现在我们把 L(θ) 称为样本的似然函数,而得到的估计值 θ ^ \hatθ 称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家 R.A.Fisher 系统的发展成为参数估计中的极大似然估计理论。

    在这之后,高斯做了非常大胆的假设:误差分布导出的极大似然估计 = 算术平均值。而后高斯去寻找误差密度函数 f 以迎合这一点。即寻找这样的概率分布函数 f, 使得极大似然估计正好是算术平均 θ ^ = x ˉ \hatθ=\bar x

    并最终求解出,唯一一个满足以上条件的函数:

    f ( x ) = 1 2 π σ e x 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}

    至此,正态分布的密度函数 N ( 0 , σ 2 ) N(0,σ^2) 被解出来了。

  • 二者的联姻

    高斯基于这个误差分布函数:正态分布,对最小二乘法给出了一个很漂亮的解释。 对于每个误差 ei,有 e i N ( 0 , σ 2 ) e_i∼N(0,σ^2) , 则 (e1,⋯,en) 的联合概率分布为:

    ( e 1 ,   , e n ) 1 ( 2 π σ ) n e x p { 1 2 σ 2 i = 1 n e i 2 } (e_1, \cdots, e_n) \sim \frac{1}{(\sqrt{2\pi}\sigma)^n}exp\{-\frac{1}{2\sigma^2} \sum_{i=1}^n e_i^2 \}

    这个联合概率分布即之前的

    L ( θ ) = L ( θ ; x 1 ,   , x n ) = f ( e 1 ) f ( e n ) = f ( x 1 θ ) f ( x n θ ) L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)

    对于这个联合概率分布,要使概率最大,那么 i = 1 n e i 2 \sum_{i=1}^n e_i^2 应达到最小值,正好就是最小二乘法的要求。

    高斯设定的准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美,但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个直觉经验,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布; 反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。 这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?

    实际上,在之前的“棣莫弗-拉普拉斯中心极限定理”中,已经出现了正态分布的函数形式:

    设随机变量 X n ( n = 1 , 2 , ) X_n(n=1,2,⋯) 服从参数为 p 的二项分布,则对任意的 x,恒有:

    lim n P { X n n p n p ( 1 p ) x } = x 1 2 π e t 2 2 d t \displaystyle\lim_{n\rightarrow\infty}P\{ \frac{X_n - np}{\sqrt{np(1-p)}} \le x \}=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{\frac{-t^2}{2}}dt

    高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯不愧为概率论的大牛,他将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多量的叠加,则根据他的中心极限定理,则随机误差理所应当是高斯分布。 而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点,高斯的循环论证的圈子就可以打破。估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅 了这么久的误差分布曲线就在自己的眼皮底下,自己却长年来视而不见,被高斯给占了先机。

猜你喜欢

转载自blog.csdn.net/weixin_37352167/article/details/86538444