数据预处理总结

数据预处理之数据清洗
数据不完整，即数据中存在缺失值，对于缺失值的处理主要有一下几种方法：
1 平均值、众数、中位数进行填充；如数据分布比较均匀，在曲线图上表现为变化比较平缓，可以用均值进行填充；当某一个值在特征向量中出现次数较多时，则可以用众数填充。
2 使用常数填充，这个需要结合实际分析，分析数据间的实际意义。
3 多项式插值；回归插值，拉格朗日插值，牛顿插值法，样条插值法。
4 KNN插值（k近邻）
数据中噪声处理
1，分箱
　　分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。
　　分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
　　统一权重，也成等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
　　统一区间，也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。
　　用户自定义区间，用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。
　　数据平滑方法：
⑴按平均值平滑
　　对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。
⑵按边界值平滑
　　用距离较小的边界值替代箱中每一数据。
⑶按中值平滑
　取箱子的中值，用来替代箱子中的所有数据。
2，聚类：将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
　　找出并清除那些落在簇之外的值（孤立点），这些孤立点被视为噪声。
3，回归；试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。

猜你喜欢