数据预处理(常用)

1.数据清洗
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。

1)缺失值处理主要有三种方法:删除记录、数据插补和不处理。当然这里数据插补是最使用最多的,包括均值/中位数/众数插补、固定值插补、最近邻插补、回归方法插补和插值法。
插补:如果该列是字符串的,就将该列中出现次数最多的字符串赋予空值,mode()函数就是取出现次数最多的元素。
删除:在kaggle中有人这样处理缺失数据,如果数据的缺失达到15%,且并没有发现该变量有多大作用,就删除该变量!

2)异常值处理
在这里插入图片描述

2.数据变换
数据变换主要是对数据进行规范化处理,将数据转换成适当的形式。

1)简单函数变换
是指对原始数据进行某些数学函数变换,常用的有平方、开方、取对数等等。

2) 规范化

  • 最大-最小规范化
    最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)
(X - X.min()) / (X.max() - X.min())
  • 标准规范化
    变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。
    计算方式:(特征值—均值)/标准差。

猜你喜欢

转载自blog.csdn.net/qq_42219077/article/details/88299171