20应用统计考研复试要点(part24)--简答题

学习笔记,仅供参考,有错必纠



简答题


  • 什么是数据的离散程度,列举5种,并说明其特点

数据的离散程度反映的是各变量值远离其中心值的程度。


异众比率,是指非众数组的频数占总频数的比例,其计算公式为:

img


四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差用 Q d Q_d 表示,其计算公式为:
Q d = Q U Q L Q_d=Q_U-Q_L


极差,一组数据的最大值与最小值之差称为极差,也称全距,用R表示。其计算公式为:
R = m a x ( x i ) m i n ( x i ) R=max(x_i)-min(x_i)


方差和标准差,方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均。方差的平方根称为标准差。方差(或标准差)能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。


离散系数,离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。


  • 什么是判定系数 R 2 R^2 ,与调整的判定系数 R a 2 R^2_a 有什么区别?

判定系数,反映了在因变量的变差中被估计的回归方程所解释的比例。其计算公式为:

R 2 = S S R S S T = 1 S S E S S T R^2=\frac{SSR}{SST}=1 - \frac{SSE}{SST}

在多元回归中,自变量个数的增加将会使预测误差变得较小,从而减少残差平方和SSE,增大SSR,随着SSR的增大,多重判定系数也会随之增大。

如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R方也会变大。因此,为避免增加自变量而高估R方,统计学家提出用样本量(n)和自变量的个数(k)去调整R方,计算出调整的多重判定系数。
R a 2 = 1 ( 1 R 2 ) ( n 1 n k 1 ) R^2_a=1-(1-R^2)(\frac{n-1}{n-k-1})


  • 说一下皮尔逊对统计学所做的贡献

(1)导出一般化的次数曲线体系

在皮尔逊之前,人们普遍认为,几乎所有社会现象都是接近于正态分布的。如果所得到的统计资料呈非正态分布则往往怀疑统计资料得不够或有偏差;而不重视非正态分布的研究,甚至对个别提出非正态分布理论的人加以压抑。皮尔逊认为,正态分布只是一种分布形态,他在1894年发表了《关于不对称曲线的剖析》,1895年发表了《同类资料的偏斜变异》等论文,得到包括正态分布、矩形分布、J型分布、U型分布等13种曲线及其方程式。他的这一成果,打破了以往次数分布曲线的"唯正态"观念,推进了次数分布曲线理论的发展和应用。

(2)提出了卡方检验

1900年,皮尔逊发表了一个著名的统计量,称之为卡方,用来检验实际值的分布数列与理论数列是否在合理范围内相符合,即用以测定观察值与期望值之间的差异显著性。

(3)发展了相关和回归理论

原创文章 319 获赞 599 访问量 13万+

猜你喜欢

转载自blog.csdn.net/m0_37422217/article/details/106116701