数据挖掘概念与技术 chapter 3:数据预处理

不在长篇大论,只总结重点:

一、数据清洗

(一)、遗漏值 填充可行方案

1、使用属性的平均值填充;
2、使用与sample属同一类别的所有sample的平均值填充;
3、使用最有可能的值填充:利用“回归”、“判定树归纳”等基于推导的方式确定;

(二)、噪音数据的处理

1、分箱:将数据排序后,按一定的间隔分为若干箱,并将每箱中的数据的值设为“该箱数据的平均值/中值”,如下例所示:


2、聚类:通过聚类的方式,监测outer,从而去除有可能的噪音点:

3、概念分层:如可将Price按照一定“阈值”分为“高”,“中”,“低” 3部分,从而可以忽略price的具体值,减少计算量,去除可能的噪音点。

二、数据集成和变换

在集成不同来源的数据时,需要考虑3方面事情:
1、属性冗余:关于这一点,可以利用“相关系数”,来判断2个属性是否相似。相关系数越接近于1,说明2个属性越接近。
2、在集成数据时,是否有样本重复出现的现象。
3、数据值冲突的检测;

数据变换 包含以下几方面内容:
1、平滑:去掉数据中的噪音(如前所示去噪处理);
2、聚集:对数据进行汇总和聚集;
3、数据泛化:如将age的数据,泛化为:yong,middle,old 3种。
4、属性构造:根据现有属性构造新的属性;
5、规范化:将数据按比例缩放,使其落入特定的区间:

  • 最小-最大规范化:
  • z-score 规范化:
  • 小数定标规范化:

三、数据规约

主要想讲以下几点:
1、数据离散化方法:
1) binnarization(分箱、直方图);
2)聚类分层:聚类后,将不同类分别形成概念分层的一个结点,该节点还可以继续进行聚类,形成较低的概念层;
3)基于熵的离散化:

4)通过“自然划分分段”;

2、数据压缩方式:
1)通过降维方法,将数据量压缩,如:PCA;通过构建树来选择最优feature;在损失函数中加入L1正则化,从而可得到最关键的feature;
2)通过使数据变得非常稀疏,从而达到压缩数据的目的,如:离散小波变化(DWT);

猜你喜欢

转载自blog.csdn.net/u014765410/article/details/87971922