统计|如何处理数据处理中的缺失值?

所谓的数据清洗就是指对各种“脏数据”进行对应方式的处理,以得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。当数据中出现了缺失值之后,缺失值会造成系统丢失大量有用信息,系统表现出不确定性,也会使得挖掘混乱,处理缺失值方法如下:

  1. 不处理
  2. 删除
  3. 数据插补

1. 不处理

采用不精确信息处理数据的不完备性已得到了广泛的研究,不完备数据的表达方法所依据的理论主要有可信度理论、模糊集合论等等。

2.删除

分为成对删除与成列删除。成列删除会减少样本数量,该方法适用于某些样本有多个特征值存在缺失值,且存在缺失值的样本占整个集样本数量的比例不高的情形。
如果成对删除,适用于对数据分析的目标影响不大的情况下进行删除。

3.数据插补

  1. 人工补齐:自己想怎么补就怎么补
  2. 特殊值补:比如用null值
  3. 平均值补:先求个平均值,然后填充缺失值
  4. 插值法:利用数学方法计算缺失值的估计值进行插值

另外插补的有:

  • 热卡填充(就近填充)
  • k最近邻算法
  • 使用所有可能的填充
  • 组合完整化法
  • 回归
  • 期望值最大化法
  • 多重填补
  • C4.5法

参考文献

康华强著高等数学-基于pytho实现.北京:北京工业出版社,2020.7

Guess you like

Origin blog.csdn.net/m0_37149062/article/details/121106782