数据清理

数据清理试图填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。

1、缺失值的处理

(1)忽略元祖:有些数据挖掘算法可以自动忽略缺失数据

(2)人工填写缺失值:很费时,特别是缺失数据集较多时,不可实现

(3)使用一个全局常量填充缺失值:如Unknown

(4)使用属性的均值填充缺失值:平均工资

(5)使用与给定元祖属同一类的所有样本的属性均值:不同性别的平均工资

(6)使用最可能的值填充缺失值:基于推理的工具或决策树归纳确定

2、噪声数据处理

(1)噪声是被测量的变量的随机误差或方差。

(2)去噪的方法,可以光滑数据。

(3)数据光滑技术:1)分箱(binning):通过考察数据的近邻来光滑有序数据的值,如箱中位数。

                               2)回归:用一个函数拟合数据来光滑数据,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,数据拟合到一个多维曲面。

                               3)聚类:可以通过聚类检测离群点,将类似的值组织成群或“簇”。

                               4)离散化的数据归约方法:概念分层,如将价格映射到价格便宜、适中和昂贵。

3、数据清理过程

step1:导致偏差的因素可能有多种,设计糟糕的数据输入表单、人为输入的错误、有意的错误、数据退化、不一致的数据表示和编码的不一致使用、记录数据的设备错误和系统错误、数据集成的错误。

偏差检测(discrepancy detection):需要关于数据性质的知识(元数据),如每个属性的定义域和数据类型、每个属性可接受的值、值的长度范围、所有值是否落在期望的值域内、属性之间是否有依赖。

把握数据趋势和识别异常:描述性数据汇总,远离属性均值超过两个标准差的值可以标记为潜在的离群点。

考察数据:唯一性、持续性、空值规则。


猜你喜欢

转载自blog.csdn.net/wanpi931014/article/details/80212375
今日推荐