异常值检验的方法

鄙人学习笔记
参考文献：《计量经济学模型及R语言应用》-王斌会

文章目录

异常值检验的方法

原始残差检测方法
杠杆值检测方法
学生化残差检测方法

异常值检验的方法

对于单变量线性回归，异常值的检测很简单，只需在直角坐标上作出散点图就能很直观地识别出哪些是异常值。
在多元线性回归中，特别是样本容量较大时，检测的方法就复杂多了。一般来说，作出矩阵散点图对发现异常值有一定的帮助，但是散点图只能反映变量两两之间的关系，所以并不是一个很好的办法。常用的办法是通过检测各类残差来发现异常值。

原始残差检测方法

当样本数据本身对模型影响足够大时，会使模型尽可能地向自己身边靠拢，所以尽管该样本的残差并不会很大，但是模型的拟合程度已经减小。因此，除了原始残差方法外，还需要其他方法来辅助。

杠杆值检测方法

可以看出，假定的随机误差项是同方差的，但是残差的方差却不是相等的。它与H矩阵主对角线上的值密切相关。当h_i的值很大时(比如接近于1)，残差的方差会很小。反映在图形上，显示为该样本把回归直线向自己身边拉近，从而对整个模型的拟合性造成很大影响，所以对于h_i值特别大的样本，一般判定界限为2p/n(注意：这里的p需包含常数项)。这时，我们称大于2p/n的点为高杠杆值点

学生化残差检测方法

残差的重要应用之一是根据它的绝对值大小判定异常值。但是普通残差有var(e_i)=(1-h_i)*σ²,这个方差与因变量y的度量单位以及h_i有关。因此在判定异常点的情形时，直接比较一般残差是不合适的，需要对其进行标准化，得到学生化残差：

可以证明cov(r_i, r_j)一般很小，所以应用上常常近似的认为r_i, r_j不相关，并进一步用正态分布作为r_i的近似分布，即r_i近似服从N(0, 1)分布且相互独立。
当|r_i| > 3时，可认为第i个点为异常点。

山羊菌

发布了116 篇原创文章 · 获赞 22 · 访问量 8万+

私信关注

异常值检验的方法

文章目录

异常值检验的方法

原始残差检测方法

杠杆值检测方法

学生化残差检测方法

猜你喜欢