版权声明:本文为博主原创文章,转载请在文章开头注明出处,作者:ChenVast;原文链接: https://blog.csdn.net/ChenVast/article/details/82791088
在统计学中,Dixon的Q检验或简单的Q检验用于识别和拒绝异常值。假设正态分布,根据Robert Dean和Wilfrid Dixon以及其他人的说法,这个测试应该在数据集中谨慎使用,并且不要超过一次。要对错误数据应用Q测试,请按增加值的顺序排列数据并按定义计算Q:
其中的差距是绝对差问题的异常和最近的数它之间。如果Q > Q 表,其中Q 表是对应于样本大小和置信水平的参考值,则拒绝可疑点。请注意,使用Q测试只能从数据集中拒绝一个点。
示例
考虑数据集:
现在按顺序重新排列:
我们假设0.167是异常值。计算Q:
有10个观测值和90%置信度,Q = 0.455> 0.412 = Q 表,因此我们得出结论,0.167确实是异常值。然而,置信度为95%,Q = 0.455 <0.466 = Q 表 0.167不被视为异常值。这意味着对于这个例子我们可以90%确定0.167是异常值,但我们不能确定95%。
McBane指出:Dixon提供的相关测试旨在搜索多个异常值,但它们的使用频率低于旨在消除单个异常值的r 10或Q版本。
表
该表总结了双尾 Dixon Q检验的极限值。
优点:
对数据值中只存在一个异常值时,效果良好。
缺点:
当异常值不止一个且出现在同侧时,检验效果不好。
尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。