数据预处理过程

概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据验证四大步骤。

(一)数据审查

该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与调查要求一致,是否全面;还包括利用描述性统计分析,检查各个字段的字段类型、字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。

(二)数据清理

该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,有利于后续的统计分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。

(三)数据转换

数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造成数据不可比;对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,也容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化以及属性构造等。

(四)数据验证
该步骤的目的是初步评估和判断数据是否满足统计分析的需要,决定是否需要增加或减少数据量。利用简单的线性模型,以及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中去。

上述四个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值或空值个数等),接着对发现的问题进行处理,即数据清理,再就是提高数据的可比性,对数据进行一些变换,使数据形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等,确保优质的数据进入分析阶段。

猜你喜欢

转载自blog.csdn.net/a8530764/article/details/50465463