掌握数据分析项目的整个过程
描述性统计分析方法是指应用分类制表图形之概括性统计数据(如均值,方差等)来概括数据分布特征的方法。
推断性统计,分析方法则是通过随机抽样,应用统计方法,保存样本数据得到的结论,推广到总体的数据分析方法
统计上需要把样本数据所蕴含信息进行概括,融合和抽象,从而得到反映样本数据的综合指标,这些指标称为统计量
描述数据特征的统计量可分为两类:一类表示数据的中心位置,如均值、中位数、众数等;另一类表示数据的离散程度,如方差、标准差、极差等用来衡量个体偏离中心的程度。两类指标相互补充,共同反应数据的特征
频率分析
个案数称为频率
落入该类中的甘肃和个案总数的比例称为相对频率
频率分析主要通过频率分布表,条形表,饼图和直方图与集中趋势和离散趋势的各种统计量来描述数据的分布特征
⑴选择 分析→描述统计→频率
⑵如果勾选(显示频率表格)复选框
⑶单击(统计量(s))按钮
⑷单击(格式(F))按钮
中新趋势的描述
装新趋势是指一组数据向某个中心值靠拢的倾向。在统计学中描述数据分布的中心位置的统计量称为位置统计量。对于连续变量(或称为尺度变量)和定序变量,描述数据中心趋势的指标,有均值、中位数、众数、5%截尾均值;对于定性数据(民意数据),描述数据中心趋势的指标只有众数
均值
均值一般是指数据的算术均值(算术平均数),是数据中心趋势的主要度量指标,也是实际问题中,使用最多的指标
数据的均值容易受极端值的影响
5%截尾均值
把观测值按照从小到大顺序排列,剔除掉排序后的数据,序列两端的部分数值后,计算得到的均值
中位数
将观测值按照从小到大的顺序排列,位于中间位置的数值称为中位数
众数
众数是观测值中出现次数最多的数值,即反映了这组观测值的集中趋势
极差
数据的观测值中的最大值与最小值之差反映了数据的波动情况
均值得标准误
如果两个样本均值的差值与标准误的比值,小于-2或大于2,则可以断定两个均值有显著的差别,进而断定这两个样本来,至于两个不同的总体
变异系数
可见在比较两组数据离散程度大小时,如果输入的测量尺度相差太大,或者是数据的量纲不一样,这是直接比较二者的标准差,并不合适,需要首先排除测量尺度和量纲的影响,变异系数就可以剔除这些影响
统计中常常把数据的最小值、下四分位数、中位数、上4分位数和最大值称为数据的总结5数。从这5个字可以大致看出数据分布的中心和离散程度。而箱图则是这5个数的图形表现
分布的情况——偏度和峰度
分布图有很长的左尾,峰尖偏右