spss统计分析基础教程(上)

@[TOC] (目录)

第一章

四种窗口

数据窗口
输出窗口
语法窗口
脚本窗口

菜单

1.文件:新建、打开、保存、另存为
将文件标记为只读:如果之后保存文件,则只能重命名并另存
重新命名数据集:修改的是工作名称而不是文件名
显示数据文件信息:在输出窗口以表格形式列出,包含变量列表信息,以及变量值标签信息
停止处理程序
缓存数据:将数据缓存到本地
开关服务器:切换到新的服务器
存储库:访问服务器端的数据文件

2.编辑
插入变量
插入个案
查找
替换
转到个案
转到变量
选项:常规、语言、查看器、数据、货币、输出、图表、透视表、文件位置

3.查看

4.数据
定义变量属性
复制数据属性
定义日期和时间
定义多重响应集
验证:定义规则、验证数据
标识重复个案
标识异常个案
比较数据集
个案排序
变量排序
转置
合并文件:添加个案、添加变量(将一个文件的个案/变量添加到另一个文件)
重构(将选定变量重构为个案:重复测量数据)
汇总
复制数据集
正交设计
拆分文件
输出个案(筛选出想要的变量)
个案加权

5.转换
计算变量
对个案中的值进行计数
变动值
重新编码为相同变量:对原始变量的取值直接进行重编码,替换原始值
重新编码为不同变量:根据原始变量的取值生成一个新变量来记录重编码结果
自动重新编码
可视分箱
最优分箱
个案排秩
时间和日期向导
替换缺失值
随机数字生成器

6.分析
报告
描述统计:频率、描述、探索、交叉表、比率、P-P图、Q-Q图
贝叶斯统计信息

比较平均值:单样本T检验,独立样本T检验、成对样本T检验、单因素ANOWA检验
一般线性模型:单变量、多变量、重复测量
广义线性模型
混合模型
相关:双变量、偏相关、距离、
回归
对数线性
神经网络
分类
降维
刻度
非参数检验
时间序列预测
生存分析
多重响应
多重插补
复杂抽样
质量控制
时间和空间模拟
直销

7.图形

8.实用程序
变量:显示各个变量的基本信息
OMS控制面板与OMS标识符,对输出管理系统进行设定
或给出OMS系统的标识符列表,为用户提供了提取和控制结果分析窗口中输出内容的功能
定义变量集:将某些变量定义为一个集合,便于分析调用。
使用变量集:设定只使用定义好的变量集后,只出现相应的变量,其余变量会被屏蔽掉。

9.扩展

10.窗口
拆分:将整个窗口拆分为四部分
将所有窗口最小化
转置指定窗口

11.帮助

结果输出

枢轴表/轻量表
文本格式
统计图表
模型

分析结果的保存和导出

直接保存:保存为spss自身的格式
导出:可将结果文件保存为另外几种常用格式
直接复制和粘贴

1.4

spss选项与中文化设置

编辑----选项

spss网站提供的附加安装包

简体中文帮助
结果文件阅读器
ODBC数据驱动包
R/Python语言插件
用户手册
系统补丁

1.5spss的帮助系统

学习向导

统计辅导
个案研究

帮助菜单

针对高级用户的帮助功能

指令语法参考
算法
spss社区

1.6数据分析方法论概述

严格设计支持下的统计方法论
半试验研究支持下的统计方法论
偏智能化、自动化分析的数据挖掘应用方法论

第二章 数据录入与数据获取

2.2数据格式概述

数据的录入格式

基本原则:不同个案的数据不能在同一条记录中出现,即同一个案的数据硬独占一行
每一测量指标/影响因素只能占据一列的位置,即同一指标的测量数值都应录入到同一变量中去
== 配对数据、重复测量数据因为分析模型的要求可能会违反该原则==

变量属性

1.变量的存储类型
数值型:
字符型:区分大小写、不能进行数学运算
日期型

2变量的测量尺度
定类尺度(名义):对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。其值仅代表了事物的类别和属性,仅能测定类别差,不能比较各类之间的大小,所以各类之间没有顺序或等级。只能计算频数和频率,如性别

定序尺度(序号):对事物等级或顺序差别的一种测度,可以比较优劣或排序。测量数值不代表绝对的数量大小,所以测量结果只能排序,不能进行算术运算。计算频率、累计频率,如学历

定距尺度(度量):对事物类别或次序之间间距的测度。不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少。计量结果可以进行加减运算,如温度

定比尺度(度量):能够测算两个测度值之间的比值的一种计量尺度。测量结果表示为数值,有一固定的绝对“零点”,0表示没有。可进行加减乘除,如月收入

3变量名与变量值标签

4缺失值
系统缺失值:数值型用‘.’表示,字符型默认空字符串,如漏填数据
用户自定义缺失值:如有一个选项为不知道/拒答

5角色
输入:变量将用作输入
目标:变量将用作输出或目标
两者

分区:变量将用于将数据划分就为单独的训练、检验、验证样本
拆分

2.3数据的直接录入

开放题和简单单选题的录入

开放题
半开放题
单选题

多选题的录入

在进行多选题录入时,只需要将相应的变量设定好即可进行操作,但是录入完毕后spss只会默认他们是若干分散的变量,并不明白它们代表的是一道多选题,只有将其设定为多选题变量集(多重响应集),spss才能对其正确的识别,从而将多选题的全部 变量当成一整道题目来进行分析。
分析—多重响应—定义变量集(多重响应频率、多重响应交叉表可用)
数据----定义多重响应集(多重响应频率、多重响应交叉表不可用)

1多重二分法:在编码时,对应的每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量分别代表对其中一个选项的选择结果,一般均为二分类,而其中必然有一个类别代表选中了这一选项。

2多重分类法:利用多个变量来对一个多选题大答案进行定义,应该用多少个变量有被访者实际可能给出的最多答案数二定。这些变量必须输数值型变量,利用值标签将答案标出,所有变量采用一套值标签。每个变量是多分类的,每个变量代表被访者的一次选择。

半开放多选题:对于含有“其他,请指出”答案的附加内容的多选题,基本处理思路和半开放单选题非常相似,即首先将“其他”当成一个答案选项,而用另一个变量来表示其他内容。在数据录入完毕后再对附加内容根据频次高低进行二次编码,以进行更为深入的分析。

2.4外部数据的获取

读取电子表格数据文件

读取文本数据文件

用ODBC接口读取各种数据库文件

文件----打开数据库----新建查询

2.5数据的保存

2.6数据编辑窗口常用操作技巧集锦

1.连续输入多个相同值

2.快速定义成批变量

3.将Excel或word中的数据直接导入spss

4.快速改变变量的排列次序

5.快速定位记录
快速定位到第N条记录:编辑----转至个案
定位到变量值等于某个取值的记录(如ID=11):需要先将相应的变量成为当前列,然后打开查找对话框输入相应的数值,单击确定后系统会查找到符合条件的第一条记录,单击查找下一个会继续查找第2条记录

6.利用排序功能快速查找异常值、极端值

7.利用变量值标签检查录入错误
视图----值标签

8.冻结列或行

9.快速重复调用对话框

10.从其他窗口快速切换回数据窗口

第三章 变量级别的数据管理

3.1变量赋值

指在原有数据的基础上,根据用户的要求,使用spss算术表达式及函数,对所有记录或满足spss条件表达式的某些记录进行四则运算。该指定变量可以是一个新变量,也可以是一个已经存在的变量。

常用基本概念

1算术表达式
2函数
3条件表达式
4逻辑表达式

“计算变量”过程对话框

3.2已有变量值的分组合并

对连续性变量进行分组合并

分类变量类别的合并

3.3连续变量的离散化

可视离散化过程

用于在可视界面下将连续变量进行分段,在该过程中可以使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作方式
转换—可视分箱

最优离散化过程

根据某些作为“关键指示变量”的分类变量,将原有的一个或多个连续性变量按照该分类变量类间差异最大化的优化原则离散化为分类变量,然后就可以使用离散化变量而非原始数据值进行后续分析了。
转换—最优分箱

3.4变量的自动重编码与数值移动

变量的自动重编码

在数据分析中,将字符变量转换为数值变量,或者将数值变量重编码是非常实用的功能。
转换–自动重新编码

变量值的移动

在2020年7月17日10:21:34序列模型以及一些特殊方法中,个案是需要按照时间顺序排列的,而在分析中可能需要将相应的变量值前移或后移
转换----变动值

3.5转换菜单中的其他功能

指定数值的查找与计数

变量的编秩

个案排秩的过程就是用来排次序的一个专用过程。

自动准备建模数据

自动准备数据过程中的因变量可以是连续、有序、无序等任何一种测量尺度,系统会自动选择相应的算法加以分析。

随机数字生成器

该过程用于设定伪随机函数的随机种子,但对真随机函数没有任何影响。在默认情况下伪随机种子会随着时间不停改变,这样所计算的随机数值无法重复,这在临床试验等场合中是不符合要求的。此时可用随机数字生成器事先指定一个种子,之后所有的伪随机函数都会从该种子开始计算。

第四章 文件级别的数据管理

4.1几个常用过程

排序个案

数据编辑窗口中的记录的前后次序在默认情况下由录入时的先后顺序决定,在实际工作中有时希望按魔种顺序来观察一批数据。
在多重排序中,指定货排序变量名的次序很关键,先指定的变量在排序是必然由于后指定的变量。
可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。
排序以后,原来记录数据的排序次序将被打乱。因此,在时间序列的数据中,如果数据中没有存放记录标志的变量,如年份等,则应注意保存原数据的排列顺序,以免造成数据混乱。

分割文件

由于CCSS项目数据是逐月采集的,在对历史数据进行分析的过程中,经常会遇到希望将某种分析结果进行逐月对比的情形。对于此类需求可以有两种解决方式:将数据按月份进行拆分,然后同时完成各月数据的分析;或将数据按月份进行筛选,然后依次加以分析。

选择个案

有时候并不需要分析全部的数据,而是按要求分析其中的一部分。

加权个案

给不同个案赋以不同的权重,以改变个案在统计分析中的重要性。以下两种情形下需要进行该操作:
1以频数格式录入的数据:相同取值的个案只录入一次,另加一个频数变量用于记录该数值共出现了多少次,这样就需要在分析时用“加权个案”对话框将数据指定为频数格式。
2案例数据抽样权重的调整:抽样权重可以理解为一系列因素影响的乘积,每一个因素对应某种抽样概率、覆盖率、应答率等方面的差异所导致的偏倚的调整。

一旦应用了一个权重变量,该权重变量始终保持有效,知道选择另一个权重变量或者关闭加权。
如果保存了加权后的数据文件,加权信息会随数据文件一起保存。
可以随时关闭加权,即使在文件以加权形式保存之后也可以。

分类汇总

按指定的分类变量对个案进行分组,并按分组对变量求指定的描述统计量,结果可以存入新数据文件中,也可以替换当前数据文件。

4.2数据文件的重组与转置

数据的长型与宽型格式

指的是重复测量数据的两种不同排列方式,由于重复测量模型可以使用不同的统计模型加以分析,所以根据模型的要求进行长型与宽型格式之间的互转。

长型转换为宽型

宽型转长型

数据转置

用于进行行列互换,即将记录转为变量,将变量转为记录,重新显示在编辑窗口。

4.3多个数据文件的合并

基本概念

1纵向拼接
2横向合并

4.4与数据字典有关的功能

数据 处理时往往事先定义好一个详细的数据格式,包括变量格式、变量标签、值标签、缺失值定义等,将其称为数据字典,它将成为使用者定义具体数据文件格式的标准模板。
在spss中。数据字典其实就是一个数据文件,它可以是一个只有结构没有数据的空数据文件,也可以是有预实验数据存储在内的一个实际数据文件。

定义变量属性

指对于数据集中已存在的变量进一步定义其属性

复制数据属性

将定义好的数据字典直接应用到当前文件中,操作时不仅可以将一个外部数据文件的相关属性复制到当前文件中,还可以进行自定义,只选择某些变量,或者某些属性进行复制,这提高了连续性项目对原有资源的利用程度。
对于一些特殊的文件属性,如多选题变量集、普通变量集、权重变量设定等,使用该向导进行复制会减少许多重复工作。

新建自定义属性和设置未知测量属性

4.5与数据准备有关的功能

数据验证模块

用户自行定义数据验证规则,并允运行这些规则对数据进行检查,以标识重复个案、变量和数据值。当找到无效数据时,可以进一步分析原因并加以更正。
1单变量规则:包含一组应用于单个变量的数值检查规则,如范围外值 的检查。对于单变量规则,有效值可以表示为一个范围,也可以表示为一个有效值列表。
2交叉变量规则:用户定义的涉及多个变量间逻辑关系的规则,由标记无效值的逻辑表达式定义,可以应用于单个变量,也可以应用于变量组合。

在验证规则验证完毕后,用户可以将其保存在数据文件的数据字典中,这样指定一次规则后就可以反复使用。

1.定义验证规则
2.进行数据验证
3.加载预定义规则

标识重复个案

标识异常个案

spss编程与扩展

5.1 spss编程入门

基本语法规则

1.主命令格式:COMPUTE NEWVAR=OLDVAR*2
命令动词:不区分大小写
分隔符:空格、斜杆、逗号
命令表达式
终止符:句号

2.子命令格式:FREQUENCIES VARIABLES=var1 var2
/STATISTICS=MEAN
子命令名
分隔符:有多个子命令时,需要用/分隔,第一个可以省略
子命令顺序

3.关键字与保留字
关键字用于识别命令、子命令、函数以及其他指令。
保留字:逻辑运算符AND OR NOT
关系运算符EQ GE GT LE LT NE
数量关系指定符ALL BY TO WITH
数值定义符LOWEST LO THRU MISSING SYSMIS

4.临时变量#与系统变量$

5.几个特殊命令

spss程序的创建方式

1.对话框粘贴程序
2.输出LOG粘贴程序
3.日志文件编辑程序

结构化语句简介

1.分支(条件)语句
IF语句
DO IF&END IF语句

2.循环语句

5.2语法编辑窗口操作入门

语法编辑窗口界面

特点:
1自动完成
2颜色编码
3分界点
4书签
5逐步执行

程序的运行与调试

5.3INCLUDE命令与宏程序

5.4OMS系统与程序自动化

第六章统计实战案例集锦(一)

6.1数据异常值的自动核查与报告

1配额检查
2数值题——封闭题:具体选项有限,数值中不应出现选项以外的取值
3数值检查——数值开放题:相应的连续变量应在有效范围内取值
4数值检查——多选题:如果采用多重分类法记录数据,则同一个选项代码不应当在不同列中重复出现
5逻辑查错:出于质量控制的要求,问卷中对数值题目的取值进行了逻辑控制

利用数据验证模块实现查错

1.清空原有查错规则
2.定义新的查错规则
3.将规则存储为数据字典
4.加载定义完毕的规则
5。进行数据验证并报告结果

利用函数功能实现查错

6.2CCSS项目数据的自动计算与处理

第七章连续变量的统计描述和参数估计

7.1连续变量的统计描述指标体系

集中趋势的描述指标

1.算术均数
2.中位数
3.截尾均数
4.几何均数
5.众数
6调和均数

离散趋势的描述指标

1.全距
2.方差和标准差
3.百分位数、四分位数与四分位间距
4变异系数

其他描述指标

1.偏度:用来描述变量取值分布形态的统计量,指分布不对称的方向和程度。
2.峰度:涌来了描述变量取值分布形态陡缓程度的统计量,指分布图形的尖峭程度

spss中的相应功能

1.频率过程
2.描述过程
3.探索过程
4.比率过程

7.2连续变量的参数估计指标体系

正态分布

参数的点估计

原则
1无偏性:虽然估计量的值不全等于参数,但应在真实值附近摆动。
2一致性:样本量越大,估计值离真实值的差异越小。
3有效性:如果有两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值。

参数点估计可用的方法
1.矩法:指在许多情况下,样本统计量本身往往就是相应的总体参数的最佳估计值,此时就可以直接去相应的样本统计量作为总体参数的点估计值。
2.极大似然法:更好的参数估计方法,有点在于估计量通常能满足一致性、有效性等要求,且具有不变性。
3稳健估计值:受数据异常值的影响较小,而且对大部分的分布而言都很好。

参数的区间估计

1.标准误
2.区间估计的计算

spss中的相应功能

1.描述过程
2.探索过程
3.P-P图、Q-Q图

7.4bootstrap方法

基于大量计算的一种模拟抽样统计推断方法,用于①判断原参数估计值是否准确,②计算出更准确的可信区间,判断的出的统计学结论是否正确。

第八章分类变量的统计描述与参数估计

8.1指标体系概述

单个分类变量的统计描述

1.频数分布
2.集中趋势
3.相对数指标

多个分类变量的联合描述

交叉表过程

多选题的描述统计

多重响应子菜单

分类变量的参数估计

第九章数据的报表呈现

9.1统计表入门

统计表的基本框架

表头、数据区、汇总项

单元格的数据类型

几种基本表格类型

1.叠加表
2.交叉表
3.嵌套表
4.多层表
5.复合表格

spss中的报表功能

1.base模块
2.custom tables模块
3.original tables模块

spss中统计表的基本绘制步骤

9.4表格的编辑

9.5表格模板技术== ==

模板技术简介

1.为当前表格应用、存储不同的表格模板
2.将表格模板设定为系统默认值

第十章数据的图形展示

10.1统计图概述

统计图的基本框架

1.标题区和注解区
2.坐标轴
3.绘图区
4.图例区

统计图的种类

1.单变量图:连续性变量(直方图、箱式图、p-p图)
2.单变量图:分类变量(条图、饼图、Pareto图)
3.双变量图:连续应变量(条图、散点图)
4.双变量图:分类应变量
5.多变量图
6.其他特殊用途的统计图(控制图、高低图、误差条图、roc曲线、序列图)

spss的统计绘图功能

10.2直方图与茎叶图

图形的基本操作

1.图形编辑窗口
2.图形编辑的基本操作要点
3.更改图形长宽比例
4.图形元素的位置移动和改变大小
5.更改背景色、直条颜色、边框等图形元素属性
6.更改连续轴选项
7.增删图形元素
在这里插入图片描述

直方图图形框架的修改

1.直方图组的绘制
在这里插入图片描述
2.累积直方图的绘制

直方图的衍生图形

1.分段直方图
在这里插入图片描述
2.面积直方图

3.人口金字塔
在这里插入图片描述

茎叶图

分析----描述统计-------探索

10.3箱图

在这里插入图片描述

箱图的编辑

10.4饼图

10.5条图与误差条图

简单条图

在这里插入图片描述

复式条图

在这里插入图片描述

百分条图

在这里插入图片描述

分段条图

在这里插入图片描述

带误差线的条图

在这里插入图片描述

误差图

10.6线图、面积图、点图、垂线图

线图

在这里插入图片描述

半对数线图

10.7散点图

简单散点图

在这里插入图片描述

在这里插入图片描述

分组散点图

在这里插入图片描述

散点图矩阵

在这里插入图片描述

三维散点图

在这里插入图片描述

10.8P-P图和Q-Q图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.9控制图与Pareto图

控制图

1.X条形图、R图、s图
2.个体、移动全距
在这里插入图片描述

3.不合格率、不合格品数控制图
4.缺陷数、单位缺陷数控制图

Pareto图

在这里插入图片描述

10.10其他统计图

高低图

1.高-低-收盘图
2.简单全距图
3.分组全距图
4.差异全距图

ROC曲线

在这里插入图片描述

时间序列分析中使用的图形

1.序列图
2.自相关图
3.互相关图
4.频谱图

第十一章 实战

猜你喜欢

转载自blog.csdn.net/cm20121878/article/details/107039775