在数据预处理中,如何填充缺失值?如何判断异常值?

缺失值的处理:

(1) 删除缺失值;

(2) 填补缺失值:

       <1>均值法填补

       根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。

       <2>最近距离决定填补法

       假设现在为时间y,前一段时间为时间x,然后根据x的值去把y的值填补好。

如何判断异常值:

(1)基于正态分布的一元离群点检测方法:根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件。在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。 因此,当样本距离平均值大于3δ,则认定该样本为异常值。

(2)箱型图分析:箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值。首先我们定义下上四分位和下四分位。上四分位我们设为 U,表示的是所有样本中只有1/4的数值大于U 。同理,下四分位我们设为 L,表示的是所有样本中只有1/4的数值小于L。我们设上四分位与下四分位的差值为IQR,即:IQR=U-L。那么,上界为 U+1.5IQR,下界为:L-1.5IQR。箱型图选取异常值比较客观,在识别异常值方面有一定的优越性。

猜你喜欢

转载自blog.csdn.net/LiuPeiP_VIPL/article/details/83903513