数据挖掘概念与技术 chapter 3：数据预处理

不在长篇大论，只总结重点：

一、数据清洗

（一）、遗漏值填充可行方案

1、使用属性的平均值填充；
2、使用与sample属同一类别的所有sample的平均值填充；
3、使用最有可能的值填充：利用“回归”、“判定树归纳”等基于推导的方式确定；

（二）、噪音数据的处理

1、分箱：将数据排序后，按一定的间隔分为若干箱，并将每箱中的数据的值设为“该箱数据的平均值/中值”，如下例所示：

2、聚类：通过聚类的方式，监测outer，从而去除有可能的噪音点：

3、概念分层：如可将Price按照一定“阈值”分为“高”，“中”，“低” 3部分，从而可以忽略price的具体值，减少计算量，去除可能的噪音点。

二、数据集成和变换

在集成不同来源的数据时，需要考虑3方面事情：
1、属性冗余：关于这一点，可以利用“相关系数”，来判断2个属性是否相似。相关系数越接近于1，说明2个属性越接近。
2、在集成数据时，是否有样本重复出现的现象。
3、数据值冲突的检测；

数据变换包含以下几方面内容：
1、平滑：去掉数据中的噪音（如前所示去噪处理）；
2、聚集：对数据进行汇总和聚集；
3、数据泛化：如将age的数据，泛化为：yong,middle,old 3种。
4、属性构造：根据现有属性构造新的属性；
5、规范化：将数据按比例缩放，使其落入特定的区间：

最小-最大规范化：
z-score 规范化：
小数定标规范化：

三、数据规约

主要想讲以下几点：
1、数据离散化方法：
1) binnarization（分箱、直方图）；
2）聚类分层：聚类后，将不同类分别形成概念分层的一个结点，该节点还可以继续进行聚类，形成较低的概念层；
3）基于熵的离散化：

4）通过“自然划分分段”；

2、数据压缩方式：
1）通过降维方法，将数据量压缩，如：PCA；通过构建树来选择最优feature；在损失函数中加入L1正则化，从而可得到最关键的feature；
2）通过使数据变得非常稀疏，从而达到压缩数据的目的，如：离散小波变化（DWT）；