数据探索-数据质量分析

数据质量分析

1.缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段的缺失,两者都会造成分析结果的不准确。

缺失值产生的影响
(1)数据挖掘建模将丢失大量的有用信息
(2)数据挖掘建模所表示出的不确定性更加显著,模型中蕴含的规律更难把握。
(3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。

2.异常值分析
异常值分析是检验数据是否录入错误以及含有不合常规的数据,忽视异常值是十分危险的,在数据分析过程中,应该剔除异常值,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。

(1)简单统计分析
可以先对变量做一个描述性统计,进而查看那些数据是不合理的数据。最常用的统计量是最大值和最小值,如在年龄的数据中设置范围0-100,最大值100,最小值0.

(2)3 σ \sigma 原则
如果数据服从正太分布,在3 σ \sigma 原则下,异常值被定义为一组测定值中与平均值偏差超过三倍的标准差的值。

(3)箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于 Q L Q_L -1.5IQR或大于 Q U Q_U +1.5IQR的值。 Q L Q_L 称为四分位数,表示全部观察值中有四分之一的数据取值比它小; Q U Q_U 为下四分位数,IQR为四分位间距。

3.一致性分析
数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

猜你喜欢

转载自blog.csdn.net/weixin_43327597/article/details/105802851