次数分布和平均数、变异数间断性变数资料的整理

通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。资料整理和分析时试验工作的重要组成部分。

一、总体及其样本

具有共同性质的个体所组成的集团,称为总体(population)。总体根据事物的属性人为规定。

总体所包含的个体数目可能是无穷多个,这种总体称为无限总体(infinite population);包含有限个个体,有限总体(finite population)。

总体可以是根据属性人为定义,因此可能是抽象的。

同一总体的各个体间在性状或特性表现上有差异,因而总体内个体间呈现不同或者呈现变异。

每一个体的某一性状、特性的测定数值叫做观察值(observation)。观察值集合起来,称为变数(variable),变数中的每一成员称为变量(variate)。总体内个体间尽管属性相同但仍然受一些随机因素的影响造成观察值或表现上的变异,所以变数又称为随机变数(random variable)

由总体的全部观察值而算得的总体特征数,如总体平均数等,称为参数。参数是反映某类事物的总体规律性的数值,科学研究的目的在于对求得的总体参数的了解。但总体所包含的个体太多,不能逐一测定或观察。一般只能从总体中抽取若干个个体来研究。这些个体的集合称为样本(sample)。

测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。统计数是总体相应参数的估计值(estimate)。

要从样本估计总体的特征参数,需要考虑样本的代表性,样本越能近似地代表总体就越好。这样的样本,一般是随机地从总体中抽取,这样就可以无偏地估计总体。

从总体中随机抽取的样本称为随机样本(random sample)。样本中包含的个体数称为样本容量或样本含量(sample size)。随机样本的容量越大,越能代表总体。

二、次数分布

(1)试验资料的性质与分类

因所研究的性状、特性不同而有不同的性质,可分为数量性状资料和质量性状资料。

a、数量性状资料

数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。

i、不连续性或间断性变数(discontinuous or discrete variable)

指用计数方法获得的数据,其各个观察值必须以整数表示,在两个相邻的整数间不容许有带有小数的数值存在。由于两个整数间是不连续的故称不连续性或间断性变数。

ii、 连续性变数(continuous  variable)

指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可有微量数值差异的第三个数值存在。其小数位数的多少,因称量的精度而异。这种变数称为连续性变数。

b、质量性状资料

质量性状(qualitative trait)指能观察而不能量测的形状,即属性性状。获取方法:

i、统计次数法    于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状个体数目,按类别计其次数或相对次数。这类资料也称为次数(频数)资料。

ii、给予每类性状以相对数量的方法(给方法)白色为0,红色为1。这类变异所得资料,处理方法同间断性变数资料。

(2)次数分布表

把观察值按数值大小或数据的类别进行分组,制成关于观察值不同组别或不同分类单位的次数分布表,可看出资料中不同表现的观察值与其频率间的规律性,看出资料频率分布的初步情况,从而对资料得到一个初步概念。次数分布表的制作方法因变数种类不同略有差异。

a、间断性变数资料的整理

分组计数

b、连续性变数资料的整理

i、数据排序(sort)对数据从小到大(升序)或从大到小排列(降序)。

ii、求极差(range)所有数据中最大观察值和最小观察值的差数,整个样本的变异幅度。

iii、确定组数和组距(class interval)根据极差分为若干组,每组距离相等,称为组距。组数和组距互相决定,组距小组数多,组距大组数少。决定组数时须考虑到资料整理的目的,组数过多或过少,都不能反映次数与观察值间的关系,不能反映资料的规律性。如果组数过多,则往往过于分散,看不到资料的集中情况,且不便于以后的继续分析。

确定组数和组距的大小应考虑:观察值个数的多少,极差的大小,便于计算,能反映出资料的真实面貌等方面。

组数确定后,须确定组距。组距=极差/组数。

iv、选定组限(class limit)和组中点值(组值,class value) 每组应有明确的界限,才能使各个观察值划入一定的组内,为此必须选定适当的组中点值及组限。组值最好为整数或与观察值的位数相同,便于后续计算。组限要明确,最好比原始资料的数字多一位小数,可使观察值归组时不致含糊不清。组距确定后,首先要选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也确定。第一组的中点值以最接近最小观察值为好,可避免第一组内次数过多,能正确地反映资料的规律性。

每组有两个组限,数值小的为下限(lower limit),数值大的为上限(upper limit)。

v、把原始资料的各个观察值按分组数列的各组组限归组  

可按原始资料中各观察值的次序,逐个把数值归于各组。由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组。

c、属性变数资料的整理

整理前,把资料按各种质量属性上的具体表现,分别归入相应的组中,可得到属性分布的规律性认识。

(3)次数分布图

方柱形图(histogram):连续性变数

多边形图(polygon):连续性变数

条形图(bar diagram):间断性变数和属性变数资料

饼图(pie diagram):间断性变数和属性变数资料

三、平均数(代表集中性)

平均数是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确两者之间相差的情况。

平均数种类:算术平均数、中数、众数、几何平均数

几何平均数(geometric mean)      G=\sqrt[n]{y_{1}y_{2}y_3...y_n}

调和平均数       \frac{1}{H}=\frac{1}{n}\sum_{i=1}^n \frac{1}{y_i}

a、算术平均数特性

           \bar{y}=\frac{\sum f_iy_i }{\sum f_i}    ( y_i 为组中值 )

i、样本各观察值与平均数的差数(离均差,deviation from mean)的总和等于0. \sum_{i=1}^n ( y_i-\bar{y})=0

ii、样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,离均差平方和总和最小。

             Q=\sum_{i=1}^n ( y_i-a)^2     a=\bar{y} 时 ,Q最小。

   b、总体平均数   \mu = \frac{1}{N} \sum_{i=1}^n y_i

研究的总体是无限总体,总体参数无法用观察或计算得到,可用样本参数估计。

四、变异数

每个样本有一批观察值,除了平均数作为样本的平均表现外,还可考虑样本内各个观察值的变异情况,才能通过样本的观察数据更好地描述样本,乃至描述样本所代表的总体,须有度量变异的统计数。变异程度的指标:极差、方差、标准差、变异系数。

a、极差(range),全矩,R,资料中最大观察值与最小观察值的差数

极差大,变异范围较大,平均数代表性差;极差小,变异幅度小,平均数代表性较好。

极差虽可对资料的变异有所说明,但它只是两个极端数据决定的,没有充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。用它代表整个样本的变异度是有缺陷的。

b、方差

为了正确反映资料的变异度,较合理的方法是根据样本全部观察值来度量资料的变异度。

平均数作为比较标准较为合理,但也应同时考虑观察值偏离平均数的情况。

每个观察值均有一个偏离平均数的度量指标——离均差。

             样本  SS=\sum_{i=1}^n ( y_i-\bar{y})^2

            总体SS=\sum_{i=1}^n ( y_i-\mu )^2

由于各样本所包含的观察值数目不同,为方便比较,用观察值数目来除平方和,得到平均离均差平方,简称均方或方差(variance)。样本均方(mean square),s^2,是总体方差(\sigma ^2)的无偏估计值

                        s^2=\frac{ \sum _{1}^{n} ( y_i-\bar{y})^2}{n-1}     \sigma ^2=\frac{ \sum _{1}^{n} ( y_i-\mu )^2}{N}

c、标准差:方差正平方根值,表示资料的变异度,单位与观察值度量单位相同,是总体标准差的估计值。

i、自由度n-1意义:因为掌握的是样本资料,不知 \mu 的数值,不得不应样本平均数 \bar{y} 代替 \mu。 \bar{y} 与 \mu 有差异,根据算术平均数特性 ii 可知,\sum ( y_i-\bar{y})^2 < \sum ( y_i-\mu )^2。因此\sum ( y_i-\bar{y})^2/n 算出的标准差将偏小,用n-1代替,可免除偏小的弊病。数理统计上可证明用自由度作除数计算标准差的无偏性。

ii、自由度统计意义:DF,\nu,样本内独立而能自由变动的离均差个数。样本自由度等于观察值个数(n)减去约束条件的个数(k),\nu=n-k

在应用上,小样本一定要用自由度来估计标准差;大样本 n 和 n-1 相差微小,也可不用自由度,直接用 n 作除数。但样本大小的界限没有统一规定,所以一般样本资料在估计标准差时,皆用自由度。

iii、标准差计算方法

直接法:计算简单,易引起计算误差

矫正数法

加权法:

d、变异系数

标准差和观察值的单位相同,表示一个样本的变异。若两个样本的变异度,则因单位不同或均数不同,不能用标准差进行直接比较。可计算样本的标准差对均数的百分比,称为变异系数(coefficient of variation)。

CV=\frac{s}{\bar{y}}   是一个不带单位的纯数,可比较二个事物的变异度大小。受标准差和平均数的影响。在使用变异系数时,同时列举平均数和标准差,否则可能会引起误解。

五、理论总体的平均数和标准差

某些总体可从理论上推测其构成成分的概率,则可从理论上推测无限总体的平均数和方差。设总体的第i个构成成分的概率为 p_i,平均数为 \mu _i ,则总体平均数和方差分别为:  \mu =\sum (p_i\mu _i)       \sigma ^2 =\sum [p_i(\mu _i-\mu )^2]

猜你喜欢

转载自blog.csdn.net/mengjizhiyou/article/details/82528354
今日推荐