均方误差与总平方误差(或绝对误差)

一个潜在疑问是:如何判断应该使用均方误差还是总平方误差(或绝对误差)?

总平方误差是指每个点的误差之和,方程式为:
M = i = 1 m 1 2 ( y y ^ ) 2 M = \sum_{i=1}^m\frac{1}{2}(y-\hat{y})^2

均方误差是指这些误差的平均值,方程式为:
T = i = 1 m 1 2 m ( y y ^ ) 2 T = \sum_{i=1}^m\frac{1}{2m}(y-\hat{y})^2

其中 m是数据点的数量,

好消息是,选择哪个并不重要。可以看出,总平方误差是多个均方误差相加的结果,因为

M = m T M=mT

因此,既然导数是线性方程, T的梯度也是 m乘以 M的梯度。

但是,梯度下降步骤包括减去误差的梯度乘以学习速率 α \alpha 。因此,选择均方误差还是总平方误差只是选择不同的学习速率。

在现实中,我们可以借助算法判断什么样的学习速率比较合适。因此,如果我们使用均方误差或总平方误差,算法将只是选择不同的学习速率。

猜你喜欢

转载自blog.csdn.net/weixin_44144171/article/details/89326752