ML-33:机器学习模型的偏差与方差

一起创作,Come on!!! 简练而全面的开源ML&AI电子书

偏差度量了学习算法的期望预测与真实结果的偏离程度，刻画了学习算法本身的拟合能力。方差度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响。噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界，也就是最小值。泛化误差可以分解为偏差、方差和噪声之和。

偏差和方差

统计领域为我们提供了很多工具来度量误差，例如参数估计、偏差和方差。这些参数出了度量误差，对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

1.1 偏差的定义

偏差：描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大，越偏离真实数据。偏差的公式如下：

$DIFF(y, \hat{y_i})=|y_i-{\hat{y_i}}|$

偏差和方差的关系和机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE 度量泛化误差（偏差和方差对于泛化误差都是有意义的）时，增加容量会增加方差，降低偏差。

1.2 方差的定义

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散。方差的公式如下：

$DIFF(y, \hat{y_i})=(y_i-{\hat{y_i}})^2$

估计量的方差或标准差告诉我们，当独立地从潜在的数据生成过程中重采样数据集时，如何期望估计的变化。正如我们希望估计的偏差较小，我们也希望其方差较小。当我们使用有限的样本计算任何统计量时，真实参数的估计都是不确定的，在这个意义下，从相同的分布得到其他样本时，它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。

对泛化误差的影响

训练程度不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，偏差将主导泛化错误率。
训练程度加深，学习器的拟合能力逐渐增强，训练数据发生的扰动逐渐能够被学习器学到，方差将主导泛化错误率。
训练程度充足后，学习器的拟合能力已经非常强，训练数据发生的轻微扰动都会导致学习器发生显著变化。训练数据非全局的特征如果被学习器学到了，将发生过拟合。

参考文献

[1] 周志华. 机器学习. 清华大学出版社. 2016.
[2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
[3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.