《tricks of trade》读书笔记 1.2学习和泛化

本文来自1.2节Learning and Generalization

对于机器学习问题的解答有很多种不同的思路，其中的绝大多数都可以归结为基于梯度的学习方法。如下图所示，一个机器学习模型 $M(Zˆp,W)$ ，其中 $Zˆp$ 表示输入， $W$ 表示模型参数，是我们优化的对象，我们所说的模型 $M$ 实际上等价于模型参数 $W$ 。我们有带label的数据集: $\{(Z_p,D_p)\}(p\in[1,P])$ ，还有用于评价当前模型 $M$ （ $W$ ）在当前数据和全体数据上表现的成本函数 $Eˆp=C(Dˆp,M(Zˆp,W))$ 、 $E_{train}(W)$ 。在最简单的设定里面，我们用均方差： $Eˆp=\dfrac{1}{2}(Dˆp-M(Zˆp,W))ˆ2,E_{train}=\dfrac{1}{P}\sum_{p=1}Eˆp$ 。事实上，相对于模型在训练集上的表现，我们更关注在同分布的、训练集中未出现过的测试集上的表现，谓之“泛化”（generalization）
上面对于学习问题做了一个非常简单的描述，具体的内容可参考相机器学习领域的教材。这里回到正题继续谈泛化。前面我们说到了数据集，由于我们已经知道了训练集，所以可以通过在训练集上获得最小误差的方法（经验风险最小化，ERM）来学习。
但是仔细思考下，ERM是有问题的：

训练集的噪声必然对泛化有影响
除非你是用full-batch，否则必然存在随机batch的选取必然不和训练集同分布。

这两个问题会将学习带到一个局部最小点处，从而不利于泛化。如何修正我们稍后再说，这里先把ERM中的误差分解成两类：

bias：衡量网络在不同batch sets上的平均表现和“绝对真理”之间的差异。
variance：衡量网络在不同batch sets上表现差异的程度。

训练早期，bias较大，因为网络和“绝对真理”距离很远；variance较小，因为网络在不同数据集上的输出差不多。经过长期的训练，bias将减小，因为网络已经逐渐学到了训练集的分布；但是由于特定训练集也存在特定的噪声，所以variance将增大。

综上，bias和variance的和是存在最小值的，这个最小值即泛化能力最优的点。找到这个点的方法（如早期停止和正则化）将在后面陆续介绍。

《tricks of trade》读书笔记 1.2学习和泛化

猜你喜欢