2019年11月7日 SPSS 运飞龙

中心趋势是指一组数据向某个中心值靠拢的倾向。描述数据分布的中心位置的统计量称为位置统治量称为位置统计量。对于连续变量(或称为尺度变量)和定序变量,描述数据中心趋势的指标有均值,中位数,众数,5%结尾均值。对于定性数据(名义数据),描述数据中心趋势的指标只有众数。

均值一般是指数据的算数均值(算数平均数),是数据中心趋势的主要度量指标,也是实际问题中的使用最多的指标。设我们考察的变量有n个测量值,他们别记为x1,x2,...,xn,则算数均值如下。

把观测值按照从小到大顺序排列,剔除掉排序后的两端的部分分数值后计算得到的均值,称为结尾均值。

这样计算出的均值就避免了极端值的影响。

将观测值按照从小到大的顺序排列,位于中间位置的数值称为中位数。

中位数受极端值的影响较小,在具有极大或极小值的数据中,中位数比均值往往更能代表数据的集中趋势。

众数是观测值中出现次数最多的数值,其反应了这组观测值的集中趋势。

均值的标准误用来衡量不同样本的均值之间的差别。

在比较两组数据离散程度大小时,如果数据的测量尺度相差太大,或者是数据的量纲不一样,这时直接比较二者的标准差并不合适,需要首先消除测量尺度和量纲的影响。变异系数就可以剔除这些影响,设样本均值为,样本标准差为s,则变异系数的计算公式如下

分位数又称为百分位数,是一种位置指标。p%分位数是指使得至少有p%的数据小于或等于这个值,且使得至少有(100-p)%的数据大于或等于这个值。

所有观测值中,有四分之一的观测值小于下四位分数,四分之三的观测值大于下四分位数。中心位置的四分位数就是中位数。最大的四分位数称为上四分位数,记为Q。

分布图有很长的右尾,尖峰偏左,a>0,分布为负偏或左偏,即分布图形在左边拖尾,如图3-10(b)所示,分布图有很长的左尾,风尖偏右,a=0,分布对称。不论正,负哪种偏态,偏度的绝对值越大表示偏科的程度越大,反之偏斜程度越小,分布形状越接近对称。

许多统计过程也都提供描述性统计指标的输出。

SPSS自定义表模块也可以产生大部分的描述性统计指标。

最常用的是列在最前面的4个过程,即频率,描述,探索和交叉表。

以判断该变量是否服从正态分布

在SPSS中选择分析——描述统计——频率,出现在图3-12所示的频率对话框。前面3.1节已经介绍了频率表格,我们这里不在显示该表格。在图3-12中,不勾选显示频率表格。

在SPSS中,选择分析——描述统计——探索,得到图3-18所是的探索对话框,其中,相关元素的含义如下。

(1)因变量列表D:把需要分析的变量选人该框中,如果需要对改变量的不同分类进行详细分析,则要在因子列表中设置分类标准。

(2)因子列表F:设置对分析的变量进行分组设置的变量,这里选入的变量总是分类变量。

(3)标注个案C:如果需要在绘制的图形上标注观测值的信息,则需要把含有标注信息的变量选入该框中。

(4)统计量S:设置输出的描述性统计量。

(5)绘制T:该选项将选择输出的图形并进行相应的设置

(6)选项O:设置缺失值的处理方法

描述性统计分析除了应用数量指标以外,还可以应用条形图,饼图,帕累托图,直方图,箱图,茎叶图登统计图形。

在分析——描述统计——探索子菜单下的绘制选项,可以绘制箱图,茎叶图,直方图和检验数据正态性的QQ图。

定型数据的图形描述——条形图,饼图,帕累托图

定量数据可以采用3种统计图形来描述:直方图,茎叶图和箱图。

直方图先把连续型数据划分成若干个连续的区间,然后计算观测值落入各个区间的频率或者相对频率。

从直方图可以直观的观测数据的分布情况

茎叶图是描述定量变量的一种图形方式,它除了能给出直方图所给出的分布的信息以外,还能够还原大部分原始数据的信息。

箱图是总结五数(最小值,第一个四分位数,中位数,第三个四分位数,最大值)的图形表现。

数据标准化处理主要包括数据同趋化处理和无量钢化处理两个方面。数据同趋化处理主要解决不同性质数据问题。

标准化处理后,可以保证数据服从标准正态分布。

猜你喜欢

转载自www.cnblogs.com/ganjiaqi/p/11815310.html