关于深度学习的优化理论的一些点



1)实际中,我们不直接最优化风险,而是最优化经验风险。
2)优化代理损失函数,即作为原目标的代理。比如负对数似然是一种代理(它是2分类损失的替代)。在某些情况下,代理损失函数比原函数学到的更多。例如,使用对数似然替代函数时,在训练集上的 0 − 1 损失达到 0 之后,测试集上的 0 − 1 损失还能持续下降很长一段时间。这是因为即使 0 − 1 损失期望是零时,我们还能拉开不同类别的距离以改进分类器的鲁棒性,获得一个更强壮的、更值得信赖的分类器,从而,相对于简单地最小化训练集上的平均 0 − 1 损失,它能够从训练数据中抽取更多信息。
3)可能是由于小批量在学习过程中加入了噪声,它们会有一些正则化效果 (Wilson and Martinez, 2003)。泛化误差通常在批量大小为 1 时最好。因为梯度估计的高方差,小批量训练需要较小的学习率以保持稳定性。
4)基于mini-batch的随机梯度下降方法的实现都会打乱数据顺序一次,然后多次遍历数据来更新参数。第一次遍历时,每个小批量样本都用来计算真实泛化误差的无偏估计。第二次遍历时,估计将会是有偏的,因为它重新抽取了已经用过的样本,而不是从和原先样本相同的数据生成分布中获取新的无偏的样本。相对的,在线更新的泛化误差小,因为每次的mini-batch都是新的,即获得了无偏的样本。
5)在使用一个非常大的训练集时,过拟合不再是问题,而欠拟合和计算效率变成了主要的顾虑,可以参考 Bottou and Bousquet (2008a) 中关于训练样本数目增长时,泛化误差上计算瓶颈的讨论。

猜你喜欢

转载自blog.csdn.net/mao_feng/article/details/78014481