统计|如何鉴别出数据中的异常值

异常值在数据中可能会产生噪声,对挖掘会产生不显著效果。针对异常值的处理我们有这几种方法。本博文不仅讲解这几种常见方法,并讲解如何使用数学手法鉴别出异常值。

1、异常值处理常用手法

处理方法 方法描述
删除含有异常值的记录 直接将含有异常值的记录删除
视为缺失值 将异常值视为缺失值,利用缺失值处理的方法进行处理
平均值修正 可用前后两个观测值的平均值修正该异常值
不处理 直接在其数据集上进行挖掘建模

2.异常值分析方法

2.1 简单统计量分析

做一个描述性统计,进而查看哪些数据不合理,最常用的是最大值和最小值判断,判断最大值和最小值是否超出合理范围。如年龄:-132岁,绝对异常!

2.2 3 σ \sigma σ原则

异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,距离平均值3 σ \sigma σ之外的值概率为极小率事件,但是它落了,可以认为是异常

2.3 箱线图分析

异常值被定义为不在范围[QL-1.5IQR,QU+1.5IQR]中的值,其中,

  1. QL为下四分位数:表示全部观测值中有四分之一的数据取值比它小;
  2. QU为上四分位数,表示全部观测值中有四分之一的数据取值比它大;
  3. IQR称为四分位数间距,是上四分位数QU和下四分位数QL之差,之间包含了全部观测值的一半.

异常值不会对这个标准施加影响,所以箱线图识别异常值比较客观。

3.参考文献

康华强著 高等数学-基于pytho实现.北京:北京工业出版社,2020.7

Guess you like

Origin blog.csdn.net/m0_37149062/article/details/121107172