【Python】怎么获取箱型图外的异常值?

在箱型图中,异常值通常定义为在数据的1.5倍四分位距之外的值。因此,要获取箱型图之外的异常值,可以按照以下步骤进行操作:

  • 首先,使用数据集计算箱型图的上下边界和四分位距。上边界等于第三个四分位数(Q3)加上1.5倍的四分位距(IQR),下边界等于第一个四分位数(Q1)减去1.5倍的IQR。
  • 然后,将数据集中大于上边界或小于下边界的数值视为异常值。

可以使用Python或其他统计分析软件来自动检测和获取箱型图外的异常值。

在Python中,可以使用NumPy或Pandas库来计算箱型图的四分位数、IQR和边界,并使用条件语句来筛选异常值。例如,以下代码演示了如何使用Python Pandas库获取箱型图外的异常值:

import pandas as pd

# 创建数据集
data = pd.DataFrame({
    
    'values': [1, 2, 3, 4, 5, 10, 20, 30, 40, 500]})

# 计算四分位数、IQR和边界
Q1 = data['values'].quantile(0.25)
Q3 = data['values'].quantile(0.75)
IQR = Q3 - Q1
upper_bound = Q3 + 1.5 * IQR
lower_bound = Q1 - 1.5 * IQR

# 获取异常值
outliers = data[(data['values'] < lower_bound) | (data['values'] > upper_bound)]
print(outliers)

首先我们看一下数据的分布:

在这里插入图片描述

在上面的代码中,我们首先创建了一个包含10个数字的数据集,并使用Pandas库计算了四分位数、IQR和边界。然后,我们使用条件语句筛选了在箱型图外的异常值,并将其打印出来。在这个例子中,数据集中的500被视为异常值。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/129815442