《Detection of Outliers in Navigation Sensor Measurement》阅读理解

由于做毕设的需要所以详细阅读了这篇文章,感觉还是蛮有收获的,所以在这里做一个小的总结。

这篇文章提出了2种用于解决导航传感器测量数据异常值检测和剔除的方法。

首先文章介绍了传统处理异常值的方法,即4西格玛原则(误差大于4倍标准差的数据剔除掉)。但是不同传感器情况不一样。

所以这样一刀切(4)的阈值去除方法并不是很合适。因为误差分布并不是都满足正态分布的。对于正态分布3倍西格玛以内的数据可以做到99.73%,而且高斯分布的特性是异常值出现概率呈现指数下降。但是现实世界很多传感器测量的数据并不满足高斯分布。从而引出第一种方法,根据文章的意思,当残差很小的时候直接使用传统的方式处理误差就可以了,但是当残差很大的时候就不一样(1)残差很大,但是分布特性依旧和高斯很接近,那么这个时候,还是可以一样处理;(2)残差很大但是有肥尾,那么就要考虑肥尾的影响。根据Pickands-Balkema-de Haan理论,尾部收敛于广义帕累托分布,这个分布的参数可以通过最大似然估计得到。

第二中方法很简单,通过时间窗口,建立N维空间;通过PCA简化空间;再人工对空间划分成bins,通过每个bin中异常值的数量标定每个bin中出现异常值的概率。

最后文章认为从不同的角度解决问题的这两个方法可以组合。其实客人观点这个原理就是提高概率(信心)。

文章中两句话还是蛮不错在这里作一摘录。

The general philosophy of optimal fusion: process the data that is needed, with weights that accurately reflect data error statistics.

The more data, the better result. In practice, this is correct only if the data are processed with a full knowledge of their statistics.


猜你喜欢

转载自blog.csdn.net/xtydtc/article/details/79057377
今日推荐