什么是自由度?

不知道是谁说的,“自由不是你想做什么就做什么,而是你不想做什么就可以不做什么”。自由是有度的,不存在没有约束的自由。当然今天谈的自由度与此无关,但其道理却是相通的。

前面几篇文章提到了自由度(degree of freedom),这是在引入抽样分布后出现的概念。这个概念又是费歇尔定义的。在与戈塞特的通信中,他就讨论过样本方差应该除n-1而不是n(戈塞特是用n),理由是定了[公式]后,在多维空间中的点就受到了[公式]的限制而只能在n-1维超平面上活动,因此只有n-1个自由度。(引自陈希孺《数理统计学简史》)

维基百科将自由度描述为当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度。

在马逢时老师的书中,对自由度做了通俗解释,“如果10个数,而且你知道了均值和其中9个数的值,那么你就可以推算出第10个数,又比如,让10个人挑选总共10个不同颜色的玻璃球,只有9个人有自由挑选的可能,因为当这9个人都挑好之后,你就别无选择了!因此这个问题的自由度为9。所以,自由度通常可以简单地理解为在研究问题中,可以自由独立取值的数据或变量。”

还记得我们中学学的多元一次方程组吗?如果有k个比如3个未知量(x,y,z),需要建立3个方程式,称为三元一次方程组,少了则无解,多了则解不唯一。假设我们就建立了3个方程式,常见的解法是逐步消元。求出一个未知量,就是消了一个元,三元一次方程组就变成了二元一次方程组,后面两个元就用这消元后的方程组来求了,相当于自由度减了个1。

我们可以用多元回归分析来理解一下自由度,设我们有k个变量,回归分析需要估计k+1个系数(包括截距),为此收集n组数据。为求出这k+1个系数,需要建立至少k+1个方程组,所以n必须要大于k+1,否则这个方程组无解。但也不能只有k+1组数据,这样就不能估计残差了,没有残差就无法运用方差分析来对模型的有效性进行判断,因此需要n≥k+2。当然估计残差只有1~2个自由度显然还不够,太少的自由度估计残差的精度要差一些,建议残差估计至少有5以上的自由度。延伸一下,在DOE中,两变量两水平全因子试验需要4次试验,因为要估计1个截距(常数)、2个主效应和1个交互效应,因此就无法估计残差了,因此在分析模型中就需要去掉交互效应。如果要估计交互效应,就需要增加试验次数,如重复1次,即8次试验,或者增加2~3次中心点试验。

在统计学中需要的方程式多于元的数量,这样可以用多余的自由度来估计随机误差。求出最后一个未知量后,剩下的自由度就用来估计残差了,因此残差的自由度就是n-k-1。而系数的自由度就是k+1-1=k,总的自由度为n-1。

对于一元回归,因为要估计截距和因子系数,因此因子的自由度为2-1=1。如果增加一个平方项,则需要估计3个未知量,这时自由度就变成2个了。如果再加上立方项,那自由度就是3。如果总的样本量为10,那残差的自由度就是10-4=6,总的自由度为6+3=9。

以此概念来看均值和方差,也相当于列n个方程求均值和方差两个未知量,先求出均值后,自由度减1,因此方差的自由度就变成n-1。

在上一篇介绍[公式]-分布,当总体均值已知,就不需要再估计均值了,因此自由度就是n,总体均值未知时,需要先估计均值,因此自由度就要少1个。

在单因子方差分析中,设有k组数据,每组数据m个(为了说明方便,假设组内样本量相同),总样本量km。因为方差分析要计算离差平方和,在此之前需要先计算均值,因此每组的自由度就是m-1,k组的自由度就是k(m-1)个,同样组间计算离差平方和的自由度则为k-1,这样总的自由度就是k(m-1)+k-1=km-1。而总离差平方和也是先估计总均值,因此总离差平方和的自由度就是km-1,公式两边自由度相等。

当然自由度在更复杂的分析方法中还有更复杂的计算,有的甚至会计算出小数,限于作者水平,不试图作一介绍。

自由度的计算对于正确运用抽样分布非常重要,看过前面几篇文章的人可能已经注意到了,抽样分布的形状与自由度高度相关。自由度不同,分布形状会有很大不同,如果不能正确计算自由度,就有可能得出错误的结论。在手工计算时期,自由度的计算是一个基本功。虽然现在统计软件帮助我们解决了计算问题,但弄清楚自由度的含义对正确理解分析结果还是很有意义的。

猜你喜欢

转载自blog.csdn.net/weixin_44716774/article/details/106491256
今日推荐