小白学算法一IQR

写在前面

      1: IQR算法介绍

       2:IQR可以用来做什么呢


一:IQR算法介绍


假设你的朋友们一起参加了一场马拉松比赛,这些朋友们跑完全程马拉松所用的时间(单位:分钟)如下:

90, 94, 96, 97, 98, 100, 102, 105, 110, 115, 120, 130, 140

我们想要找出这些数据的IQR(四分位距)。首先我们需要找出Q1和Q3。

对于这组数据,我们先将它们按从小到大的顺序排列(实际上已经排列好了)。这组数据总共有13个数,所以:

  • 第一四分位数 Q1 位于第 (13+1)/4 = 3.5 个位置,所以我们取第3个数和第4个数的平均值,即 (96+97)/2 = 96.5
  • 第三四分位数 Q3 位于第 3*(13+1)/4 = 10.5 个位置,我们取第10个数和第11个数的平均值,即 (115+120)/2 = 117.5

然后我们计算 IQR = Q3 - Q1 = 117.5 - 96.5 = 21

这个IQR值(21分钟)告诉我们,大约50%的跑者(也就是从第25百分位到第75百分位的跑者)完成马拉松的时间在96.5分钟和117.5分钟之间。也就是说,如果你在这场马拉松比赛中的成绩在这个时间范围内,那么你的成绩大致处于中等水平。

然后,我们可以利用IQR检测异常值。通常情况下,小于 Q1-1.5IQR 或大于 Q3+1.5IQR 的值被认为是异常值。在这个例子中,小于 96.5-1.521 = 65.5 分钟或大于 117.5+1.521 = 148.5 分钟的马拉松完成时间被认为是异常的。换句话说,如果你跑完全程马拉松用了少于65.5分钟或超过148.5分钟,那么你的成绩就可能被认为是异常的。

二:IQR可以用来做什么呢

IQR(四分位数范围)是一种描述数据分布和离散程度的有效工具。由于它仅基于四分位数,不需要数据服从特定的分布,因此在处理偏态或包含离群值的数据时比均值和标准差更稳健。以下是IQR的一些常见应用:

1. **描述数据的分布**:IQR用于度量数据的离散程度,可以提供数据分布的一种视角。它涵盖了数据集中50%的数据,提供了中间范围的统计度量。例如,你可以用IQR来描述一组考试成绩的离散程度。

2. **异常值检测**:IQR常用于检测异常值或离群值。数据点如果低于(Q1 - 1.5 * IQR) 或者 高于(Q3 + 1.5 * IQR)被视为异常值。这是因为这些值远离了数据的中间50%的范围。

3. **数据清洗**:在数据预处理阶段,IQR可以帮助我们识别并处理异常值。通过删除或修正这些异常值,我们可以使得数据更加清洗、整洁,从而提高模型的性能。

4. **箱线图**:在统计学中,箱线图是一种常见的可视化工具,用于展示数据的五数概括(最小值,Q1,中位数,Q3,最大值)。在箱线图中,箱体的上边缘和下边缘分别表示Q3和Q1,箱体的高度(即IQR)可以显示数据的离散程度。

以上都是IQR在数据分析和机器学习中的一些常见用途。

猜你喜欢

转载自blog.csdn.net/weixin_39842528/article/details/131992483