数据预处理二:数据集成+数据规约+数据变换

一.数据集成

即多个数据源的数据进行合并
 

实体识别

  • 同名异义
  • 异名同义
  • 单位不统一

冗余属性识别

  • 同一属性多次出现
  • 同一属性命名不一致导致重复

1.判断方法
由卡方检验判断结果,若两个属性之间存在较大的相关系数,则其中一个可以被视作冗余而删除
两列协方差为正,两个属性趋于相同方向改变,两列数据协方差为负,趋于相反方向改变
观测值是否存在重复

2.解决办法
删除

二.数据规约

压缩数据量,保持原数据的完整性,但数据量比原来小很多

1.维归约
属性合并创建新属性维数
直接通过删除不相关的属性(维)来减少数据维数

方法

  • 逐步向前选择
  • 逐步向后删除
  • 决策树归纳
  • 主成分分析


2.数值归约
意义

  • 降低无效、错误数据对建模的影响,提高建模的准确性
  • 少量且具代表性的数据将大幅缩减数据挖掘所需的时间
  • 降低储存数据的成本

三.数据变换

(简单函数变换/规范化/离散化/属性构造/小波变换)

1.简单函数变换:开方、平方、对数等

  • 非正态分布数据变换成正态分布数据
  • 非平稳序列转换成平稳序列(简单的对数变换或差分运算)
  • 数据挖掘中,对数据压缩,如1000元到10亿元,对数变换


2.规范化:消除指标之间的量纲和取值范围差异的影响

  • 最大-最小规范化(离差标准化)

数值映射到[0,1]之间
x*=(x-min)/(max-min)
缺点:数据值中某一值过大,则规范化后各值会接近于0

  • 零-均值规范化(标准差规范化),使用最多

经过处理后数据的均值为0,标准差为1
x*=(x-xp)/o     减均值/原始数据的标准差
scale(data)

  • 小数定标规范化

移动属性值的小数位数,将属性值映射到[-1,1]之间
x*=x/10^k
i1<-ceiling(log(max(abs(data[,1]))),10)  #小数定标的指数


3.连续属性离散化:将连续属性变换为分类属性,首要任务:确定分类数及如何将连续属性映射到这些分类值

  • 等宽法:类似频率分布表
  • 等频法:将相同数量的记录放进每个区间
  • 基于聚类分析的方法

result<-kmeans(data,6)      #连续属性的值用聚类算法进行聚类
v3<-result$cluster          #聚类得到的簇进行处理,合并到一个簇的连续属性值做同一标记


4.属性构造

  • 线损率=(供入电量-供出电量)/供入电量*100%,线损率的正常范围一般在3%~15%,远远超过这个范围,则存在漏电行为


5.小波变换

猜你喜欢

转载自www.cnblogs.com/xyp666/p/9247021.html
今日推荐