总结:
异常值是用1.5IQR来推测的,IQR=Q3-Q1,是25%-75%之间的数值,
Q4-Q3理论上应该只有0.5个IQR,超过1.5个IQR,则说明数据比较异常了。
上限是非异常范围内的最大值。下限是非异常范围内的最小值。
首先要知道什么是四分位距如何计算的?
四分位距IQR=Q3-Q1,
那么上限=Q3+1.5IQR,下限=Q1-1.5IQR
具体数值计算:
https://baijiahao.baidu.com/s?id=1591167651227320027&wfr=spider&for=pc
两侧的是max值和min值,异常值线并不显示。
以下是箱形图的具体例子:
这组数据显示出:
-
最小值(minimum)=5
-
下四分位数(Q1)=7
-
中位数(Med--也就是Q2)=8.5
-
上四分位数(Q3)=9
-
最大值(maximum)=10
-
平均值=8
-
四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。
-
farout: 在图上不予显示,仅标注一个符号∇。
-
最大值区间: Q3+1.5ΔQ
-
最小值区间: Q1-1.5ΔQ
最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.
-
mild outlier = 3.5
-
extreme outlier = 0.5
https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE/10671164?fr=aladdin