数据预处理备忘

数据预处理主要有四个任务
1.数据清洗

数据清洗主要是对缺失值和异常值的处理,对于缺失值的主要方法有删除记录,数据插补和不处理;对于异常值的方法主要有删除含有异常值的记录,不处理,平均值修正和视为缺失值

2.数据集成

数据集成是合并多个数据源中的数据,并存放到一个数据存储的过程,比如根据一个人身高,体重,年龄,通过这几个数据计算出BMI作为一个新数据。
实体识别问题:同名异义,异名同义,单位不统一
冗余属性:同一属性出现多次,同一属性命名不一致导致重复

3.数据变换

数据变换可以从不同的应用角度对已有属性进行函数变换。比如,对于复杂的信号在时域中研究很困难,可以转换到频域中进行研究,发现信号具有的频率特点

4.数据规约

数据规约从属性规约和数值规约两个方向着手,使挖掘性能和效率得到很大的提高。
属性规约:通过属性合并创建新属性维数,或者直接通过删除不相关的属性(维)来减少数据维数。常见方法(合并属性,逐步向前选择,逐步向后删除,决策树归纳,主要成分分析)《Python数据分析与挖掘实战》P74,P77
数值规约:通过选择替代的,较小的数据来减少数据量,包括有参数方法和无参数方法Python数据分析与挖掘实战》P77,P80

猜你喜欢

转载自blog.csdn.net/chenbinkria/article/details/80004752