泛统计理论初探——分位数与箱型图

统计学习-分位数与箱型图

认识分位数和箱型图
在之前的文章中,我们介绍了基本的描述性统计变量,即低阶和高阶的描述性指标,比如均值、中位数、标准差、偏度、峰度等指标。在本文中,我们将介绍箱型图和分位数的含义以及应用,理解箱型图的构成和分位数的意义可以加深对数据分布的理解。
首先我们介绍分位数这个指标,分位数从直观上理解就是某个样本在数据总体中的位置。要求解分位数必须对数据按某种维度进行排序,然后对排序的数据进行统计,比如寻找75分位数、25分位数等。举个例子,路上有9位学生,他们的身高分别是170厘米、164厘米、153厘米、162厘米、173厘米、150厘米、147厘米、168厘米、175厘米。那么我们把数据从低到高排序后,求得下四分位数(25分位数)即为153厘米,上四分位数(75分位数)即为170厘米,中位数(50分位数)即为164厘米。所以分位数计算的方法就是,将数据排序后,将分位数的值比如75分位数是0.75去乘以总数据容量,得到的数值如果不是整数,就向上取整;如果得到的数值是整数,那么就是当前位置和向上取整的位置的数值的平均数。分位数可以帮助使用者理解数据的分布,通过认识分位数我们理解了如何计算分位数,并且可以看出,中位数是一种特殊的分位数。
在介绍箱型图的概念之前,我们先介绍四分位数间距IQR,该数值是由上四分位数Q3减去下四分位数Q1得到,即IQR=Q3-Q1。这种四分位数间距指标不仅可以观察数据的稳健性,同时该指标还是构建箱型图步骤的最主要的一个计算步骤。
在这里插入图片描述
根据上图,我们发现箱型图分为两个部分,箱内部分和箱外部分。而箱内部分的上下界限就是上四分位数和下四分位数,在箱内的数据是占了50%的数据,如果箱子内部越长,则说明数据越集中。其中在图中我们发现在箱子的中间还有一个中位数的标志,如果数据是对称分布的话,那么中位数这根线应该在箱子的正中间。如果中位数偏上或者偏下较为严重,可以认为数据的分布是偏态的。在箱子的外部,我们发现箱子的外部也有两根横线,上面那根被称为上边缘,下面那根被称为下边缘。首先我们根据上四分位数和下四分位数计算出四分位数间距IQR,然后通过Q3+1.5IQR得到上边缘值,通过Q1-1.5IQR得到下边缘值。这两个值相当于确定了数据整体的一个理想分布的范围,正常情况下,数据的极大值和极小值都是在上下边缘之内的。而当数据中存在异常值的时候,会在箱型图中发现异常值在整个箱型图的外面,即上下边缘值之外,上图的异常值的位置就很好的说明了这种情况。
箱型图的优势就是不会受到数据异常值的影响,它可以很好的观察数据的分布情况、散布情况、集中趋势、稳健性等数据特征。同时在竞赛中,使用者可以观察箱型图找出数据中的异常值,为数据清洗提供帮助。
总的来说,分位数是数据所在位置的一种描述,分位数的数值比数据本身的值更能反映数据位置特性。同时分位数的计算是为箱型图的刻画提供帮助,特别是上四分位数和下四分位数。而箱型图是统计工作者最常用的工具,它能直观地反映数据的分布,帮助使用者识别异常值和清洗数据。所以要透彻学习分位数和箱型图的概念,并在实际的问题中应用它们,加强对分位数和箱型图的认识。

发布了23 篇原创文章 · 获赞 24 · 访问量 4511

猜你喜欢

转载自blog.csdn.net/qq_26727101/article/details/103208693