最小二乘法与正态分布

转载自:统计之都 https://cosx.org/2013/01/story-of-normal-distribution-1


神说,要有正态分布,就有了正态分布。

神看正态分布是好的,就让随机误差服从了正态分布。

— 创世纪—数理统计

最小二乘法由天文学的问题产生,由法国的数学家勒让德Legendre)创造,但也有人说是高斯(Gauss)创造的。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。同时代的欧拉(Euler),拉普拉斯(Lapalace)都无法逾越“求解线性矛盾方程的问题”的鸿沟。

天文学是第一个被测量误差困扰的学科。伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括: 误差是对称分布的; 大的误差出现频率低,小的误差出现频率高。用数学的语言描述,也就是说误差分布函数 f ( x ) 关于0对称分布,概率密度随 | x | 增加而减小。于是许多天文学家和数学家开始了寻找误差分布曲线的尝试,但最终没能给出什么有用的结果。

现在轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王子,后来被称为数学家中的老狐狸,数学家阿贝尔对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去 (He is like the fox, who effaces his tracks in the sand with his tail) 。” 我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布(即高斯分布),其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。1801 年 1 月,天文学家朱塞普·皮亚齐发现了一颗从未见过的光度为8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现 6 个星期,扫过八度角后就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了谷神星的轨道,并预言了他在夜空中出现的时间和位置。 1801 年 12 月 31 日夜,德国天文爱好者奥伯斯,在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

设真值为 θ , x 1 , , x n n 独立测量值,每次测量的误差为 e i = x i θ ,假设误差 e i 的密度函数为 f ( e ) ,则测量值的联合概率为 n 个误差的联合概率,记为:

L ( θ ) = L ( θ ; x 1 , , x n ) = f ( e 1 ) f ( e n ) = f ( x 1 θ ) f ( x n θ )

但是高斯不采用贝叶斯的推理方式,而是直接取使 L ( θ ) 达到最大值的 θ ^ = θ ^ ( x 1 , , x n ) 作为 θ 的估计值,即:

θ ^ = arg max θ L ( θ )

现在我们把 L ( θ ) 称为样本的似然函数,而得到的估计值 θ ^ 称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家费希尔系统的发展成为参数估计中的极大似然估计理论。

数学家波利亚说过:“要成为一个好的数学家,你必须首先是一个好的猜想家 (To be a good mathematician, you must be a good guesser)。”历史上一流的数学家都是伟大的猜想家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:

误差分布导出的极大似然估计 = 算术平均值

然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布密度函数 f , 使得极大似然估计正好是算术平均 θ ^ = x ¯ 。而高斯应用数学技巧求解这个函数 f , 高斯证明 所有的概率密度函数中,唯一满足这个性质的就是

f ( x ) = 1 2 π σ e x 2 2 σ 2

瞧,正态分布的密度函数 N ( 0 , σ 2 ) 被高斯他老人家给解出来了!

进一步,高斯基于这个误差分布的密度函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差 e i , 由于误差服从概率分布 N ( 0 , σ 2 ) , 则 ( e 1 , , e n ) 的概率为 :

P = 1 2 π σ exp { e 1 2 2 σ 2 } 1 2 π σ exp { e 2 2 2 σ 2 } 1 2 π σ exp { e n 2 2 σ 2 } = 1 ( 2 π σ ) n exp { 1 2 σ 2 i = 1 n e i 2 } .

注:此处的 P 就是极大似然估计中的 L ( θ )

由上面式子可以知道,要使得这个概率最大,必须使得 i = 1 n e i 2 取最小值,而这正好就是最小二乘法的要求

高斯所拓展的最小二乘法成为了 19 世纪统计学的最重要成就,它在 19 世纪统计学的重要性就相当于 18世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德 1805 年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。高斯在数学上的贡献特多,去世前他是要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的分量。

猜你喜欢

转载自blog.csdn.net/The_lastest/article/details/82413772