箱型图简单介绍

1 箱型图介绍

箱型图,用作显示一组数据分散情况资料的统计图。
优点:不受异常值的影响,可以准确稳定的描述数据的离散分布情况
在这里插入图片描述

一个例子:一组数12,15,17,19,20,23,25,28,30,33,34,35,36,37 (共14个)
重要参数:
1. 下四分位数Q1:等于该样本中所有数值由小到大排列后第25%的数字
Q1所在的位置=(14+1)/4=3.75【第3个的0.75+第4个的0.25】
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;、

2. 中位数(第二个四分位数)Q2:该样本中所有数值由小到大排列后第50%的数字

Q2所在的位置=2×(14+1)/4=7.5
Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;

3. 上四分位数Q3:等于该样本中所有数值由小到大排列后第75%的数字

Q3所在的位置=3×(14+1)/4=11.25
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25;

4. 四分位距(interquartile range, IQR):

IQR=Q3-Q1

5. 上限:非异常范围内的最大值

上限=Q3+1.5IQR

6. 上限:非异常范围内的最大值

下限=Q1-1.5IQR

7. 异常值:内限与外限之间的异常值为温和的异常值【mild outliers】||||外限以外的异常值为极端的异常值【extreme outliers】

2 箱型图分析

  1. 异常值的识别
  2. 判断数据的偏态和尾重
    对于标准正态分布的样本,只有极少值为异常值,异常值越多说明尾部越重,自由度越小。
    **偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
  3. 根据不同的箱型图比较几批数据的形状
    从箱型图中可以看出数据的【平均值、中位数、分布区间、异常值】

学习链接:

猜你喜欢

转载自blog.csdn.net/weixin_45913084/article/details/131109460