数据——数据预处理

1. 聚集

概念:将两个或多个对象合并成单个对象。
优点:a.数据归约导致的较小数据集需要较少的内存和处理时间。
   b.对象或属性群的行为通常比单个对象或属性的行为更加稳定。
缺点:可能丢失有趣的细节。

2.抽样

概念:选择数据对象子集进行分析。
优点:可以压缩数据量

3.维归约

优点:a.降低维度(数据属性的个数),提高算法效果。
   b.降低数据挖掘算法的时间和内存需要。

维灾难:随着数据维度的增加,许多数据分析变得非常困难。

4.特征子集选择

概念:仅使用特征的一个子集。
提出原因:冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。

5.特征创建

概念:可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。

创建新属性方法:

  1. 特征提取:由原始数据创建新的特征集。
  2. 映射数据到新的空间:使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。(例如时域到频域的转换)
  3. 特征构造:原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法,在这种情况下,一个或多个由原特征构造的新特征可能比原特征更有用。

6.离散化和二元化

概念:某些数据挖掘算法,要求数据是分类属性形式,常常需要将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。

二元化例子:一个分类属性到三个二元属性的变换 3→011

猜你喜欢

转载自blog.csdn.net/qq_32486393/article/details/87868729