统计学习-抽样分布

常用统计量:

样本均值

样本均值(sample mean)又叫样本均数。即为样本的均值。均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。

样本方差

先求出总体各单位变量值与其算术平均数离差的平方,然后再对此变量取平均数,就叫做样本方差。样本方差用来表示一列数的变异程度。样本均值又叫样本均数。即为样本的均值。

样本变异系数

变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差\ \sigma平均值之比

样本K阶矩&样本k阶中心距

样本来自总体,携带了总体的部分信息。进行统计分析和推断时,要使用样本携带的信息推断总体的概率性质,但样本带来的信息往往是分散凌乱的,需要集中整理加工后才便于利用.有一类常用的统计量是样本的数字特征,他们是模拟总体数字特征构造的,称为样本矩。样本矩主要包括样本均值、未修正样本方差、样本(修正)方差、样本k阶原点矩和样本k阶中心距。

样本偏度

偏度衡量实数随机变量概率分布的不对称性。偏度的值可以为正,可以为负或者甚至是无法定义。在数量上,偏度为负(负偏态)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(不一定包括中位数在内[1])位于平均值的右侧。偏度为正(正偏态)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(不一定包括中位数[1])位于平均值的左侧。偏度为零就表示数值相对均匀地分布在平均值的两侧,但不一定意味着其为对称分布.

样本峰度

峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的

次序统计量

设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。

充分统计量

对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量。对于未知参数的估计问题,保留了原始样本中关于未知参数θ的全部信息的统计量,就是充分统计量。如样本均值X是总体数学期望的充分统计量。数学上,设(X₁, …,Xₑ)是来自总体X的一个随机样本,T=T(X₁, …,Xₑ)是一统计量。若在T=t的条件下,样本的条件分布与未知参数θ无关,则称统计量T是θ的充分统计量。 

常用抽样分布:

卡方分布

 分布在数理统计中具有重要意义。 分布是由阿贝(Abbe)于1863年首先提出的,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡·皮尔逊(C K.Pearson)分别于1875年和1900年推导出来,是统计学中的一个非常有用的著名分布。

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)

T分布

概率论统计学中,t-分布t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。 [1] 

t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。

F分布

F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。

中心极限定理

样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。这就是中心极限定理(central limit theorem)

样本比例的抽样分布

从同一总体中取得的所有大小为n的可能样本,由这些样本的比例形成的一个分布,就是比例的抽样分布。用Ps代表样本比例的随机变量。比例的抽样分布其实就是一种概率分布,由所有大小为n的可能样本的各种比例构成。如果我们知道这些比例的分布,就能利用这个分布求出一个特定样本的比例的发生概率。+通俗地解释:比例的抽样分布要解决的是“已知总体的相关参数,要求解某样本比例的发生概率”的问题&oq=从同一总体中取得的所有大小为n的可能样本,由这些样本的比例形成的一个分布,就是比例的抽样分布。用Ps代表样本比例的随机变量。比例的抽样分布其实就是一种概率分布,由所有大小为n的可能样本的各种比例构成。如果我们知道这些比例的分布,就能利用这个分布求出一个特定样本的比例的发生概率。++通俗地解释:比例的抽样分布要解决的是“已知总体的相关参数,要求解某样本比例的发生概率”的问题

两个样本平均值之差的分布

这要分两种情况:总体方差是否已知。

如果总体方差已知,则样本均值可以构建下面的统计量

这个统计量服从标准正态分布N(0,1)。

如果总体方差未知,则可以用样本方差代替总体方差,构建下面的统计量

这个统计量服从t-分布t(n-1),n-1为自由度。t-分布的形状与自由度有关,自由度越小,则分布曲线越“胖”,自由度越大,分布曲线约接近正态分布。一般在自由度超过30时,基本上就和正态分布差不多了,也可以用正态分布来分析

样本方差的分布&两个样本方差比的分布

卡方分布是针对单个正态总体的样本方差分布,依据总体均值μ是否已知分为两种情况。

如果总体均值μ已知,则样本方差可以构建以下的统计量

这个统计量服从分布,自由度为n

如果总体均值μ未知,则用样本均值来代替,这样上述统计量就改为

这个统计量服从分布,自由度为n-1。两个统计量自由度差1个,是因为在总体均值未知时需要用样本均值来估计,用掉了1个自由度。

F-分布是针对两个正态总体的样本方差之比的分布。

假设两个独立的正态总体方差相等,在这两个总体中分别抽取1个样本,样本量分布为mn,用两个样本方差构建以下的统计量

这个统计量服从分子自由度为m-1,分母自由度为n-1的F(m-1,n-1)分布。

F-分布应用非常广泛,尤其是在判断两总体方差是否相等以及方差分析中,在回归分析和DOE中也有重要的应用。

根据这几个分布的性质,还可以导出其它的统计量,比如两个均值之差的分布等,感兴趣的请参考相关的书籍,这里不再赘述。

对于服从二项分布的总体比例来说,样本的比例同样服从二项分布。当npn(1-p)均大于5时,可以用正态来近似,其均值和方差分别为

这些统计量及其分布非常重要,是很多统计分析方法的基础。通过计算样本的相关统计量,可以依据这些统计量的分布做出恰当的判断。在比较分析中,大家会看到上面列出的这些统计量的大量应用。

参考文献:

贾俊平 中国人民大学出版社 统计学第七版

百度百科

维基百科

样本比例的抽样分布

抽样分布篇之七:抽样分布总结

发布了42 篇原创文章 · 获赞 6 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/zkyxgs518/article/details/103449802