缺失值清洗

缺失值清洗

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。

1.造成缺失值的原因

  • 信息暂时无法获取;
    • 如商品售后评价、双十一的退货商品数量和价格等具有滞后效应。
  • 信息被遗漏;
    • 可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。
      这个在很多公司恐怕是习以为常的事情。
  • 获取这些信息的代价太大;
    • 如统计某校所有学生每个月的生活费,家庭实际收入等等。
  • 系统实时性能要求较高;
    • 即要求得到这些信息前迅速做出判断或决策。
  • 有些对象的某个或某些属性是不可用的。
    • 如一个未婚者的配偶姓名、一个儿童的固定收入状况等。

2.缺失数据处理方法

1) 删除元组

也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。

优点:

  • 简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下非常有效;

不足:

  • 当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。

2)数据填充

用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。

数据填充的方法有多种,此处先

猜你喜欢

转载自blog.csdn.net/qq_39974560/article/details/105768666