数据预处理总结

数据预处理之数据清洗
数据不完整,即数据中存在缺失值,对于缺失值的处理主要有一下几种方法:
1 平均值、众数、中位数进行填充;如数据分布比较均匀,在曲线图上表现为变化比较平缓,可以用均值进行填充;当某一个值在特征向量中出现次数较多时,则可以用众数填充。
2 使用常数填充,这个需要结合实际分析,分析数据间的实际意义。
3 多项式插值;回归插值,拉格朗日插值,牛顿插值法,样条插值法。
4 KNN插值(k近邻)
数据中噪声处理
1,分箱
  分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
  分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
  统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
  统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
  用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
  数据平滑方法:
⑴按平均值平滑
  对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
⑵按边界值平滑
  用距离较小的边界值替代箱中每一数据。
⑶按中值平滑
 取箱子的中值,用来替代箱子中的所有数据。
2,聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
  找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
3,回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。

猜你喜欢

转载自blog.csdn.net/qq_40584445/article/details/81510591