一个潜在疑问是:如何判断应该使用均方误差还是总平方误差(或绝对误差)?
总平方误差是指每个点的误差之和,方程式为:
均方误差是指这些误差的平均值,方程式为:
其中 m是数据点的数量,
好消息是,选择哪个并不重要。可以看出,总平方误差是多个均方误差相加的结果,因为
因此,既然导数是线性方程, T的梯度也是 m乘以 M的梯度。
但是,梯度下降步骤包括减去误差的梯度乘以学习速率 。因此,选择均方误差还是总平方误差只是选择不同的学习速率。
在现实中,我们可以借助算法判断什么样的学习速率比较合适。因此,如果我们使用均方误差或总平方误差,算法将只是选择不同的学习速率。