【数据异常校验】狄克逊准则(Dixon Criterion)处理异常数据

版权声明:本文为博主原创文章,转载请在文章开头注明出处,作者:ChenVast;原文链接: https://blog.csdn.net/ChenVast/article/details/82791088

统计学中Dixon的Q检验或简单的Q检验用于识别和拒绝异常值。假设正态分布,根据Robert Dean和Wilfrid Dixon以及其他人的说法,这个测试应该在数据集中谨慎使用,并且不要超过一次。要对错误数据应用Q测试,请按增加值的顺序排列数据并按定义计算Q

问= {\ frac {{\ text {gap}}} {{\ text {range}}}}

其中的差距绝对差问题的异常和最近的数它之间。如果Q  >  表,其中表是对应于样本大小和置信水平的参考值,则拒绝可疑点。请注意,使用Q测试只能从数据集中拒绝一个点。

示例

考虑数据集:

0.189,\ 0.167,\ 0.187,\ 0.183,\ 0.186,\ 0.182,\ 0.181,\ 0.184,\ 0.181,\ 0.177 \,

现在按顺序重新排列:

0.167,\ 0.177,\ 0.181,\ 0.181,\ 0.182,\ 0.183,\ 0.184,\ 0.186,\ 0.187,\ 0.189 \,

我们假设0.167是异常值。计算Q

{\ displaystyle Q = {\ frac {\ text {gap}} {\ text {range}}} = {\ frac {| 0.167-0.177 |} {0.189-0.167}} = 0.455。}

有10个观测值和90%置信度Q  = 0.455> 0.412 =  表,因此我们得出结论,0.167确实是异常值。然而,置信度为95%,Q  = 0.455 <0.466 =  表 0.167不被视为异常值。这意味着对于这个例子我们可以90%确定0.167是异常值,但我们不能确定95%。

McBane指出:Dixon提供的相关测试旨在搜索多个异常值,但它们的使用频率低于旨在消除单个异常值的r 10或Q版本。

该表总结了双尾 Dixon Q检验的极限值。

优点:

对数据值中只存在一个异常值时,效果良好。

缺点:

当异常值不止一个且出现在同侧时,检验效果不好。

尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。

参考:https://en.wikipedia.org/wiki/Dixon%27s_Q_test

猜你喜欢

转载自blog.csdn.net/ChenVast/article/details/82791088
今日推荐