数据清洗中异常值如何处理(上)

版权声明:系CDA数据分析师原创作品,转载需授权 https://blog.csdn.net/yoggieCDA/article/details/88800857


在数据分析工作中,我们面对的原始数据都是存在一些肮脏数据的,其中异常值就是肮脏数据中的一种。所以说,我们在进行数据分析工作的时候一定要对数据中的异常值进行处理,那么大家是否知道数据清洗中的异常值是如何清洗的吗?下面我们就给大家介绍一下如何处理数据清洗中的异常值。

首先我们需要对异常值有个理解,一般来说,异常值通常被称为“离群点”,对于异常值的处理,通常使用的方法有很多种,第一就是简单的统计分析,第二就是使用3∂原则处理,第三就是箱型图分析,第四就是基于模型检测,第五就是基于距离检测,第六就是基于密度检测,第七就是基于聚类。下面我们就分别为大家介绍一下这些方法。

首先给大家介绍一下简单的统计分析,当我们拿到数据后可以对数据进行一个简单的描述性统计分析,譬如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,不合常理的为异常值。

第二就是3∂原则,如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

第三就是箱型图分析,一般来说,箱型图提供了识别异常值的一个标准:如果一个值小于QL01.5IQR或大于OU-1.5IQR的值,则被称为异常值。QL为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR为四分位数间距,是上四分位数QU与下四分位数QL的差值,包含了全部观察值的一半。一般来说,箱型图判断异常值的方法以四分位数和四分位距为基础,四分位数具有鲁棒性:25%的数据可以变得任意远并且不会干扰四分位数,所以异常值不能对这个标准施加影响。因此箱型图识别异常值比较客观,在识别异常值时有一定的优越性。

在这篇文章中我们给大家介绍了关于数据清洗的相关方法,通过对这些方法的介绍我们不难发现这些方法都是十分经典的,由于篇幅原因我们就给大家介绍到这里了,在后面的文章中我们会继续为大家介绍数据清洗的方法。

猜你喜欢

转载自blog.csdn.net/yoggieCDA/article/details/88800857