数据分析学习总结笔记05:缺失值分析及处理

1 缺失值概念

在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。
因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失的个案;也可能会使分析结果精度降低,出现偏倚甚至是错误的结论。
另外,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化,部分分析过程无法完成。
缺失值分析有助于解决出不完整的数据造成的若干问题,尽可能全面、有效地利用整个数据库1

2 缺失值分析的类别

2.1 按数据缺失形式划分

(1)单元缺失:针对需调查的个案进行调查而没有得到个案信息。这种缺失在数据分析阶段常常无能为力。
(2)项目缺失:在调查内容中某些变量的观测结果有缺失。

2.2 按缺失机制与方式划分

(1)完全随机缺失:已评价的结果或即将进行的评价结果中,研究对象的缺失率是独立的。即,缺失现象完全随机发生,与自身或其他变量的取值无关。
(2)随机缺失:缺失数据的发生与数据库中其他无缺失变量的取值有关。某一观察值的缺失的概率仅依赖已有的观察结果,不依赖未观察到的结果。这是最常见的缺失机制。
(2)非随机缺失:数据的缺失不仅与其他变量的取值有关,缺失率与缺失数据有关,也和自身有关。这种缺失大都不是由偶然因素所造成的,常常是不可忽略的。

3 缺失值的处理方法

3.1 删除缺失值

最常见、最简单的处理缺失值数据的方法,使用这种方法时,如果任何个案在某一变量含有缺失数据的话,就把对应的个案从分析中剔除。

  • 优点:如果缺失值所占比例较小的话,该方法十分有效。
  • 缺点:该方法以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。

3.2 缺失值替代

缺失值替代,即在SPSS“转换”选项卡中的“替换缺失值”菜单过程。此过程将所有的记录看成一个序列,然后采用某种指标对缺失值进行填充。

  • 优点:它实际上专门用于解决时间序列模型中的缺失值问题。常用的替代方式有:算术平均数、缺失值临近点的算术平均数、中位数、线性插入等。
  • 缺点:虽然其中的一些填充方法也可以用于普通数据,但相比之下,如果在非序列数据中使用该过程可能得不偿失,应当谨慎使用。

3.3 缺失值分析

(1)缺失值的描述和快速诊断:用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例为多少,是否与其他变量取值有关,从而得知这些缺失值出现是否会影响分析结论。
(2)得到更精确的统计量:提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量将更加可靠。
(3)用估计值替换缺失值:使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。

相关笔记:

  1. Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
  2. Python相关实用技巧02:Python2和Python3的区别
  3. Python相关实用技巧03:14个对数据科学最有用的Python库
  4. Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
  5. Python相关实用技巧05:yield关键字的使用
  6. Scrapy爬虫小技巧01:轻松获取cookies
  7. Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
  8. 数据分析学习总结笔记01:情感分析
  9. 数据分析学习总结笔记02:聚类分析及其R语言实现
  10. 数据分析学习总结笔记03:数据降维经典方法
  11. 数据分析学习总结笔记04:异常值处理
  12. 数据分析学习总结笔记05:缺失值分析及处理
  13. 数据分析学习总结笔记06:T检验的原理和步骤
  14. 数据分析学习总结笔记07:方差分析
  15. 数据分析学习总结笔记07:回归分析概述
  16. 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
  17. 数据分析学习总结笔记09:文本分析
  18. 数据分析学习总结笔记10:网络分析

本文主要根据个人学习(数据分析技术MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!


  1. 数据分析技术MOOC ↩︎

发布了30 篇原创文章 · 获赞 0 · 访问量 548

猜你喜欢

转载自blog.csdn.net/weixin_41961559/article/details/105280345