离群点对均方根误差的影响以及解决办法

RMSE经常作为衡量回归问题的评估指标。计算公式为

R M S E = ∑ i = 1 n ( y i − y ^ i ) 2 n RMSE = \sqrt{\frac{\sum_{i=1}^{n}{(y_i - \hat{y}_i)^2}}{n}} RMSE=ni=1n(yiy^i)2

y i y_i yi是第 i i i个样本的真实值, y ^ i \hat{y}_i y^i是第 i i i个样本的预测值, n n n是样本个数。

一般情况下,RMSE可以很好的反应回归模型预测值相对真实值的偏离情况,但是当存在偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。

如果存在离群点的话,怎么解决呢?

  1. 如果认为是离群点是噪声的话,数据预处理阶段过滤掉
  2. 如果不认为是离群点是噪声的话,需要进一步提高模型的预测能力
  3. 可以找一个对噪声不敏感的指标,例如平均绝对百分比误差(MAPE),MAPE相较于RMSE,对每个点的误差进行了归一化,降低了离群点带来的绝对误差的影响

M A P E = ∑ i = 1 n ∣ y i − y ^ i y i ∣ ∗ 100 n MAPE = \sum_{i=1}^{n}|\frac{y_i - \hat{y}_i}{y_i}| * \frac{100}{n} MAPE=i=1nyiyiy^in100

欢迎关注微信公众号(算法工程师面试那些事儿),建号初期,期待和大家一起刷leecode,刷机器学习、深度学习面试题等,共勉~

おすすめ

転載: blog.csdn.net/qq_40006058/article/details/121462253