数据预处理（2）数据集成和数据变换数据规约

数据集成

数据挖掘的过程中往往需要的数据分布在不同的数据库，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。

实体识别
同名异义
名字相同但实际代表的含义不同
异名同义
名字不同但代表的意思相同
单位不统一
冗余属性识别
1. 相同的属性出现多次
2. 同一属性命名不一致导致重复

数据变换

1. 简单函数变换

2. 规范化

最小最大规范化
值与最小值的差再除以极差得到规范后的值
零-均值规范化
值与平均值的差在除以标准差
这种规范的方式是当前最多的数据标准化方法
小数定标规范法
移动的小数位数取决于绝对值的最大值。

3. 连续属性离散化

连续属性的离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或者整数值代表落在每个子区间中的数据值。
常用的离散化方法有：等宽法、等频法和聚类
（1）等宽法
（2）等频法
（3）基于聚类分析的方法

4. 属性构造

根据已知的属性创造出新的属性。

5. 小波变换

小波分析的理论和方法在信号处理、图像处理、语音处理、模式识别、量子物理等领域得到越来越广泛的应用。

数据规约

在大数据集上进行复杂的数据分析和挖掘需要很长的时间，数据规约产生更小但保持数据完整性的新数据集。
在规约后的数据集上进行分析和挖掘将更有效率。
数据规约的意义在于：

降低无效、错误数据对建模的影响，提高建模的准确性。
少量且具代表性的数据将大幅缩减数据挖掘所需的时间。
降低存储数据的成本。

属性规约

通过属性合并来创建新属性维数，或者直接通过删除不相关的属性来减少维数。目标是寻找出最小的属性子集并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。
常见方法如下：
合并属性
逐步向前选择 -------依次选择最优属性添至空集合
逐步向后删除 -------依次选择最差属性移出原集合
决策树归纳利用决策树的归纳方法对初始数据进行分类归纳学习，获得初始决策树，没有出现在该决策树上的可以认为是无关的属性。
主成分分析 -----用较少的变量去解释原始数据中的大部分变量，即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。

数值规约

数值规约是指通过选择替代的、较小的数据来减少数据量，包括有参数方法和无参数方法两类。
有参数方法是使用一个模型来评估数据，只需存放参数，而不需要存放实际数据，例如回归和对数线性模型。无参数的方法就需要存放实际数据，例如直方图，聚类，抽样等