数据预处理一:数据探索与数据清洗(缺失值+异常值)

一.基本概述

数据探索与数据清洗没有严格的先后顺序,经常在一个阶段进行。

数据探索

  • 数据质量分析(与数据清洗密切相关)
  • 数据特征分析(分布/对比/周期/相关性/描述性统计分析/常见统计量等)

数据清洗

  • 缺失值处理
  • 异常值处理

二.数据探索

1.描述性统计分析
定性变量

  • 频率
  • 频数

定量变量

  • 集中趋势的度量:均值、众数、中位数、四分位
  • 变异程度的度量:极差、方差、标准差
  • 相对位置的度量:标准得分
  • 偏度和峰度:

2.分布分析

极差

组距:极差 / 组数

直方图

三.数据清洗-缺失值

四.数据清洗-异常值

猜你喜欢

转载自www.cnblogs.com/xyp666/p/9246830.html