结构化数据预处理导图(基础)

1. 数据清洗

1.1 数据质量概念

数据清洗是保证数据质量的重要步骤,数据质量最重要的方面是准确性、完整性、一致性,其次还有时效性、可信性、可解释性。

数据质量对于数据的不同适用对象而言重要性不同。

 

数据质量问题有很多源头:

人为性问题:

  • 人为的偶然因素:如记忆偏差、测量偏差;
  • 人为的系统因素:采集端因素和应用端因素。
    • 采集端如人、工具、环境等导致的系统性误差,导致准确性不佳
    • 应用端如人会主观根据兴趣选择属性,会导致完整性的缺失。

 

系统性问题:

  • 数据采集方法设计的问题:如用户没有填写,系统强制填写的信息
  • 数据传输中的错误
  • ……

1.2 数据清洗的流程和常用方法框架

数据预处理

猜你喜欢

转载自www.cnblogs.com/mx0813/p/12676336.html