数据的预处理
数据审核
数据审核—原始数据(raw data)
完整性审核
- 应调查的单位或个体是否有遗漏
- 所有的调查项目或变量是否填写齐全
准确性审核
- 数据是否真实反映实际情况,内容是否符合实际
- 数据是否有错误,计算是否正确等
数据审核—二手数据(second hand data)
适用性审核
- 弄清楚数据的来源、数据的口径以及有关的背景材料
- 确定数据是否符合自己分析研究的需要
时效性审核
- 尽可能使用最新的数据
确认是否有必要做进一步的加工整理
数据筛选(data filter)
当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选
数据筛选的内容
- 将某些不符合要求的数据或有明显错误的数据予以剔除
- 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除
数据排序 (data rank)
按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
在某些场合,排序本身就是分析的目的之一
排序可借助于计算机完成
数据排序 (方法)
分类数据的排序
- 字母型数据,排序有升序降序之分,但习惯上用升序
- 汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
数值型数据的排序
- 递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)<x(2)<…<x(n)
- 递减排序:可表示为:x(1)>x(2)>…>x(n)
数据透视表(pivot table)
可以从复杂的数据中提取有用的信息
可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图
形成一个符合需要的交叉表(列联表)
在利用数据透视表时,数据源表中的首行必须有列标题
数据透视表(用Excel创建数据透视表)
- 第1步:选择【插入】→【数据透视表】
- 第2步:在【表/区域】框内选定数据区域(在操作前将光标放在任意数据单元格内,系统会自动选定数据区域)。选择放置数据透视表的位置。系统默认是新工作表,如果要将透视表放在现有工作表中,选择【现有工作表】,并在【位置】框内点击工作表的任意单元格(不要覆盖数据)。点击【确定】
- 第3步:用鼠标右键单击数据透视表,选择【数据透视表选项】,在弹出的对话框中点击【显示】,并选中【经典数据透视表布局】,然后【确定】
- 第4步:将数据透视的一个字段拖至“行”位置,将“另一个字段”拖至“列”的位置(行列可以互换),再将要计数的变量拖至“值字段”位置,即可生成需要的频数分布表