数据分析基础-箱型图分析

异常值分析

异常值分析高大上的名字叫离群点分析,其目的就是从一个数据集中找出这个数据集不符合正常事务范畴的数据。有三种方式,简单的观测方法这个靠经验,另外两种分别是:基于正态分布的方式 3 σ \sigma σ 原则分析箱型图分析

箱型图分析
此时有一个观察数据集,需要从这个观察数据集合中找到一批异常值。根据需要使用箱型图分析来查找。首先对这个观察数据集取值进行从小到大排序,当然从大到小也可以。对数据进行以数据大小进行分割,分割的选择 Q U Q_U QU 上四分位 Q L Q_L QL 下四分位

Q U Q_U QU 上四分位 是指全部观察数据集中有四分之一的数据取值比当前这个数据取值
Q L Q_L QL 下四分位 指全部观察数据集中有四分之一的数据取值比当前这个数据取值

理解了四分位,知道数据是如何分割的,异常数据就知道在哪里了通过上界和下界即可确定。在 Q U Q_U QU上四分位 Q L Q_L QL下四分位 之中。精确的确定异常数据范围 大于 Q U Q_U QU + 1.5 I Q R 1.5 IQR 1.5IQR的值也叫上界 和 小于 Q L Q_L QL - 1.5 I Q R 1.5 IQR 1.5IQR的值也叫下界 I Q R IQR IQR的值 等于 Q U Q_U QU 减去 Q L Q_L QL 的值。

在这里插入图片描述
图片来自于python数据分析与挖掘实战(图3-1)

3 σ \sigma σ 原则分析
3 σ \sigma σ原则分析找出异常值在概率统计-方差与正态分布(高斯分布)
文章中讲到了正态分布的特点与性质。我已经确定你已经完成了该篇文章的阅读或者已经理解正态分布。
3 σ \sigma σ这里的 σ \sigma σ是就是正态分布的标准差,3 σ \sigma σ 表示 横轴上距离平均数 μ \mu μ的 距离是3 σ \sigma σ,我们已经知道( μ \mu μ-3 σ \sigma σ, μ \mu μ+3 σ \sigma σ)区间范围内占比 99.8%,这个区间范围外比例只有0.2%,所以是异常数据的概率特别大。

箱型图离散趋势

四分位数间距,是指 Q L Q_L QL Q U Q_U QU之差。 Q L Q_L QL Q U Q_U QU之差集合数量包含了全部观察数据集合数量一半。说明数据的变异程度程度越大;反之,说明变异程度越小。

Guess you like

Origin blog.csdn.net/Hello_Ray/article/details/108624033