数据质量分析的任务:检查原始数据中的脏数据(缺失值,异常值,不一致的值,重复数据及含有特殊符号(如#,$,*)的数据)
1 缺失值:
缺失值包括:记录的缺失,记录中某个字段信息的缺失
缺失值处理方法:删除缺失值的记录,对可能值插补,不处理
2 异常值:
异常值包括:录入错误,不合常理的数据
异常值处理方法:最大最小值统计,3σ原则,箱型图分析
3 不一致的值:
包括:来源于不同的数据源,重复存放的数据未能进行一致性更新
数据质量分析的任务:检查原始数据中的脏数据(缺失值,异常值,不一致的值,重复数据及含有特殊符号(如#,$,*)的数据)
1 缺失值:
缺失值包括:记录的缺失,记录中某个字段信息的缺失
缺失值处理方法:删除缺失值的记录,对可能值插补,不处理
2 异常值:
异常值包括:录入错误,不合常理的数据
异常值处理方法:最大最小值统计,3σ原则,箱型图分析
3 不一致的值:
包括:来源于不同的数据源,重复存放的数据未能进行一致性更新