RMSE平方根误差的意外?

RMSE(Root mean square error)

问题描述:

一家流媒体公司,拥有众多的美剧资源,预测每部美剧的流量趋势对于广告投放,用户增长都非常重要。

我们希望构建一个回归模型来预测某部美剧的流量趋势,但无论采用哪种回归模型,得到的RMSE指标都非常高。然后事实是,模型在95%的时间区间内预测误差都小于1%,取得了相当不错的预测结果。那么造成RMSE指标居高不小的最可能的原因是什么?

  RMSE经常用来衡量回归模型的好坏,但按照题目的叙述,RMSE失效了。

      RMSE=\sqrt{D}公式:

一般情况下,RMSE能够很好地反映回归模型预测值与真实值得偏离程度,。但在实际应用中如果存在个别偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。

回到问题本身,模型在95%的时间内预测误差都小于1%,,这说明,在大部分的时间区间内,模型的预测效果都是非常优秀 的。然后RMSE一直很差,这很可能是由于在其他的5%的时间内存在非常严重的离群点。

针对这个问题,可以从三个角度去解决。

一:如果我们认为这些离群点是“噪声点”的话,就需要在数据预处理的阶段把这些噪声点过滤掉。

二:如果不认为这些离群点是“噪声点的话”,就需要进一步提高模型的预测能力,将离群点产生的机制建模进去(这个话题很宏大)

三:可以找一个更合适的指标来评估该模型。关于评估指标,其实存在比RMSE的鲁棒性更好的指标,比如平均绝对百分比误差(MAPE mean absolute percent error)

   MAPE=

相比于RMSE,MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。

猜你喜欢

转载自blog.csdn.net/qq_29678299/article/details/88741966
今日推荐