箱形图为什么能检测异常值,原理是什么?

总结:

异常值是用1.5IQR来推测的,IQR=Q3-Q1,是25%-75%之间的数值,

Q4-Q3理论上应该只有0.5个IQR,超过1.5个IQR,则说明数据比较异常了。

上限是非异常范围内的最大值。下限是非异常范围内的最小值。

首先要知道什么是四分位距如何计算的?

四分位距IQR=Q3-Q1,

那么上限=Q3+1.5IQR,下限=Q1-1.5IQR

具体数值计算:

https://baijiahao.baidu.com/s?id=1591167651227320027&wfr=spider&for=pc

两侧的是max值和min值,异常值线并不显示。

以下是箱形图的具体例子:

图2.例子图2.例子

这组数据显示出:

  • 最小值(minimum)=5

  • 下四分位数(Q1)=7

  • 中位数(Med--也就是Q2)=8.5

  • 上四分位数(Q3)=9

  • 最大值(maximum)=10

  • 平均值=8

  • 四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)

在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。

  • farout: 在图上不予显示,仅标注一个符号∇。

  • 最大值区间: Q3+1.5ΔQ

  • 最小值区间: Q1-1.5ΔQ

最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.

  • mild outlier = 3.5

  • extreme outlier = 0.5

https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE/10671164?fr=aladdin

猜你喜欢

转载自blog.csdn.net/kevin1993best/article/details/107565560