1. 简介
箱形图(盒须图、盒式图、箱线图、boxplot),是一种用作显示一组数据分散情况的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
也就是说,不仅可以在单张坐标系(单张图)中观察指定数据的分布,也可以单张坐标系包含多个子图,进行横向比较。
2. 绘制方法
先找出一组数据的上边缘、下边缘、中位数和两个四分位数;
然后, 连接两个四分位数画出箱体;
再将上边缘和下边缘与箱体相连接,中位数在箱体中间。
3. 计算示例
有数据 data = [ 3, 4, 5, 7, 9, 10 ],一共 n = 6 条。
首先计算四分位数 Q1,Q3,经过资料的查询,发现有 Matlab 计算与 SPSS 计算方法。
3.1. Matlab
- Q1
0.25 * ( n + 1 ) = 0.25 * 7 = 1.75
分为 i = 1 和 d = 0.75 看
找到第 i = 1 个数 c = 3 以及它下一个数 e = 4,Q1 = c + ( e - c ) * 0.75 = 3.75
- Q3
0.75 * (n + 1) = 0.75 * 7 = 5.25
分为 i = 5 和 d = 0.25 看
找到第 i = 5个数 c = 9 以及它下一个数 e = 10,Q3 = c + ( e - c ) * 0.75 = 9.75
3.2. SPSS
- Q1
1 + 0.25 * ( n - 1 ) = 1 + 0.25 * 5 = 2.25
分为 i = 2 和 d = 0.25 看
找到第 i = 2 个数 c = 4 以及它下一个数 e = 5,Q1 = C + (E - C) * 0.25 = 4.25
- Q3
1 + 0.75 * ( n - 1 ) = 1 + 0.75 * 5 = 4.75
分为 i = 4 和 d = 0.75 看
找到第 i = 4 个数 c = 7 以及它下一个数 e = 10 , Q3 = C + (E - C) * 0.75 = 8.5
echarts 框架中盒须图绘图规则是 SPSS 计算,以后者为例。
目前计算完毕:Q1 = 4.25, Q3 = 8.5。
四分位距 IQR = Q3 - Q1 = 8.5 - 4.25 = 4.25。
max = Max(data) = 10, min = Min(A) = 2。
上限择取较小值 Min(max, Q3 + IQR * 1.5) = 10
下限择取较大值 Max(min, Q1 - IQR * 1.5) = 3
1.5 据说是一个经验数值,而且似乎为了不使上下限过分太大或太小,进行了 Max Min 的函数挑选。
中位数,数据个数为奇数时,取中间数;数据个数为偶数是,取中间两数的算术平均值。
over