数据探索--数据质量分析

数据质量分析的任务:检查原始数据中的脏数据(缺失值,异常值,不一致的值,重复数据及含有特殊符号(如#,$,*)的数据)

1 缺失值:

缺失值包括:记录的缺失,记录中某个字段信息的缺失

缺失值处理方法:删除缺失值的记录,对可能值插补,不处理

2 异常值:

异常值包括:录入错误,不合常理的数据

异常值处理方法:最大最小值统计,3σ原则,箱型图分析

3 不一致的值:

包括:来源于不同的数据源,重复存放的数据未能进行一致性更新

猜你喜欢

转载自www.cnblogs.com/wangzhonghan/p/10361565.html