数据预处理二：数据集成+数据规约+数据变换

一.数据集成

即多个数据源的数据进行合并

实体识别

冗余属性识别

1.判断方法
由卡方检验判断结果,若两个属性之间存在较大的相关系数，则其中一个可以被视作冗余而删除
两列协方差为正，两个属性趋于相同方向改变，两列数据协方差为负，趋于相反方向改变
观测值是否存在重复

2.解决办法
删除

二.数据规约

压缩数据量，保持原数据的完整性，但数据量比原来小很多

1.维归约
属性合并创建新属性维数
直接通过删除不相关的属性（维）来减少数据维数

方法

2.数值归约
意义

三.数据变换

（简单函数变换/规范化/离散化/属性构造/小波变换）

1.简单函数变换：开方、平方、对数等

2.规范化：消除指标之间的量纲和取值范围差异的影响

数值映射到[0,1]之间
x*=(x-min)/(max-min)
缺点：数据值中某一值过大，则规范化后各值会接近于0

经过处理后数据的均值为0，标准差为1
x*=(x-xp)/o 减均值/原始数据的标准差
scale(data)

移动属性值的小数位数，将属性值映射到[-1,1]之间
x*=x/10^k
i1<-ceiling(log(max(abs(data[,1]))),10) #小数定标的指数

3.连续属性离散化：将连续属性变换为分类属性，首要任务：确定分类数及如何将连续属性映射到这些分类值

result<-kmeans(data,6) #连续属性的值用聚类算法进行聚类
v3<-result$cluster #聚类得到的簇进行处理，合并到一个簇的连续属性值做同一标记

4.属性构造

5.小波变换