偏差,方差以及两者权衡
偏差是由模型简化的假设,使目标函数更容易学习。
一般来说,参数化算法有很高的偏差,使它们学习起来更快,更容易理解,但通常不那么灵活。反过来,它们在复杂问题上的预测性能更低,无法满足算法偏差的简化假设。
Decision trees是低偏差算法的一个例子,而linear regression则是高偏差算法的一个例子。
如果使用不同的训练数据,则目标函数的估计值会发生变化。通过机器学习算法对训练数据估计目标函数,所以我们希望算法有一定的方差,而不是零方差。
K-Nearest Neighbors algorithm是高方差算法的一个例子,而Linear Discriminant Analysis则是一个低方差算法的例子。
任何预测建模机器学习算法的目标都是实现低偏差和低方差。同时,该算法也要能实现良好的预测性能。机器学习算法的参数化通常是一场平衡偏差和方差的战斗。
- 增加偏差会减少方差。
- 增加方差会降低偏差。