深入理解深度学习——正则化(Regularization):噪声鲁棒性

分类目录:《深入理解深度学习》总目录


在文章《正则化(Regularization):数据集增强》中已经提出将噪声作用于输入,作为数据集增强策略。对于某些模型而言,向输入添加方差极小的噪声等价于对权重施加范数惩罚。在一般情况下,注入噪声远比简单地收缩参数强大,特别是噪声被添加到隐藏单元时会更加强大。向隐藏单元添加噪声是值得单独讨论重要的话题。另一种正则化模型的噪声使用方式是将其加到权重。这项技术主要用于循环神经网络。这可以被解释为关于权重的贝叶斯推断的随机实现。贝叶斯学习过程将权重视为不确定的,并且可以通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用的随机方法。

在某些假设下,施加于权重的噪声可以被解释为与更传统的正则化形式等同,鼓励要学习的函数保持稳定。我们研究回归的情形,也就是训练将一组特征 x x x映射成一个标量的函数 y ^ ( x ) \hat{y}(x) y^(x),并使用最小二乘代价函数衡量模型预测值 y ^ ( x ) \hat{y}(x) y^(x)与真实值 y y y的误差:
J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] J = E_{p(x, y)}[(\hat{y}(x) - y)^2] J=Ep(x,y)[(y^(x)y)2]

现在我们假设对每个输入表示,网络权重添加随机扰动: ϵ w ∼ N ( ϵ ; 0 , 、 e t a I ) \epsilon_w\sim N(\epsilon;0, 、eta I) ϵwN(ϵ;0,etaI)。想象我们有一个标准的 l l l层的多层感知机。我们将扰动模型记为 y ^ ϵ w ( x ) \hat{y}_{\epsilon w}(x) y^ϵw(x)。尽管有噪声注入,我们仍然希望减少网络输出误差的平方。因此目标函数变为:
J = E p ( x , y ) [ ( y ^ ϵ w ( x ) − y ) 2 ] = E p ( x , y ) [ y ^ ϵ w 2 ( x ) − 2 ∗ y ∗ y ^ ϵ w ( x ) + y 2 ] \begin{aligned} J &= E_{p(x, y)}[(\hat{y}_{\epsilon w}(x) - y)^2] \\ & = E_{p(x, y)}[\hat{y}_{\epsilon w}^2(x) -2 * y * \hat{y}_{\epsilon w}(x) + y^2] \end{aligned} J=Ep(x,y)[(y^ϵw(x)y)2]=Ep(x,y)[y^ϵw2(x)2yy^ϵw(x)+y2]

对于小的 η \eta η,最小化带权重噪声(方差为 η I \eta I ηI)的 J J J等同于最小化附加正则化项: η E p ( x , y ) [ ∣ ∣ ∇ W y ^ ( x ) ∣ ∣ 2 ] \eta E_{p(x, y)}[||\nabla_W\hat{y}(x)||^2] ηEp(x,y)[∣∣Wy^(x)2] J J J。这种形式的正则化鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。换句话说,它推动模型进入对权重小的变化相对不敏感的区域,找到的点不只是极小点,还是由平坦区域所包围的极小点。在简化的线性回归中,正则项退化为: η E p ( x ) [ ∣ ∣ x ∣ ∣ 2 ] \eta E_{p(x)}[||x||^2] ηEp(x)[∣∣x2],这与函数的参数无关,因此不会对 J ~ \tilde{J} J~关于模型参数的梯度有影响。

向输出目标注入噪声

大多数数据集的 y y y标签都有一定错误。错误的 y y y不利于最大化 log ⁡ p ( y ∣ x ) \log p(y | x) logp(yx)。避免这种情况的一种方法是显式地对标签上的噪声进行建模。例如,我们可以假设,对于一些小常数 ϵ \epsilon ϵ,训练集标记 y y y是正确的概率是 1 − ϵ 1 - \epsilon 1ϵ,(以 ϵ \epsilon ϵ的概率)任何其他可能的标签也可能是正确的。这个假设很容易就能解析地与代价函数结合,而不用显式地抽取噪声样本。例如,标签平滑(Label Smoothing)通过把确切分类目标从0和1替换成 ϵ k − 1 \frac{\epsilon}{k-1} k1ϵ 1 − ϵ 1 - \epsilon 1ϵ,正则化具有 k k k个输出的Softmax函数的模型。标准交叉熵损失可以用在这些非确切目标的输出上。使用Softmax函数和明确目标的最大似然学习可能永远不会收敛——Softmax函数 永远无法真正预测0概率或1概率,因此它会继续学习越来越大的权重,使预测更极端。使用如权重衰减等其他正则化策略能够防止这种情况。标签平滑的优势是能够防止模型追求确切概率而不影响模型学习正确分类。这种策略自 20 世纪 80 年代就已经被使用,并在现代神经网络继续保持显著特色。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/130753446