异常值在数据中可能会产生噪声,对挖掘会产生不显著效果。针对异常值的处理我们有这几种方法。本博文不仅讲解这几种常见方法,并讲解如何使用数学手法鉴别出异常值。
1、异常值处理常用手法
处理方法 | 方法描述 |
---|---|
删除含有异常值的记录 | 直接将含有异常值的记录删除 |
视为缺失值 | 将异常值视为缺失值,利用缺失值处理的方法进行处理 |
平均值修正 | 可用前后两个观测值的平均值修正该异常值 |
不处理 | 直接在其数据集上进行挖掘建模 |
2.异常值分析方法
2.1 简单统计量分析
做一个描述性统计,进而查看哪些数据不合理,最常用的是最大值和最小值判断,判断最大值和最小值是否超出合理范围。如年龄:-132岁,绝对异常!
2.2 3 σ \sigma σ原则
异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,距离平均值3 σ \sigma σ之外的值概率为极小率事件,但是它落了,可以认为是异常
2.3 箱线图分析
异常值被定义为不在范围[QL-1.5IQR,QU+1.5IQR]中的值,其中,
- QL为下四分位数:表示全部观测值中有四分之一的数据取值比它小;
- QU为上四分位数,表示全部观测值中有四分之一的数据取值比它大;
- IQR称为四分位数间距,是上四分位数QU和下四分位数QL之差,之间包含了全部观测值的一半.
异常值不会对这个标准施加影响,所以箱线图识别异常值比较客观。
3.参考文献
康华强著 高等数学-基于pytho实现.北京:北京工业出版社,2020.7