清华大学出品：罚梯度范数提高深度学习模型泛化性

1 引言

神经网络结构简单，训练样本量不足，则会导致训练出来的模型分类精度不高；神经网络结构复杂，训练样本量过大，则又会导致模型过拟合，所以如何训练神经网络提高模型的泛化性是人工智能领域一个非常核心的问题。最近读到了一篇与该问题相关的文章，论文中作者在训练过程中通过在损失函数中增加正则化项梯度范数的约束从而来提高深度学习模型的泛化性。作者从原理和实验两方面分别对论文中的方法进行了详细地阐述和验证。 $\mathrm{Lipschitz}$ 连续是对深度学习进行理论分析中非常重要且常见的数学工具，该论文就是以神经网络损失函数 $是\mathrm{Lipschitz}$ 连续为出发点进行数学推导。为了方便读者能够更流畅地欣赏论文作者漂亮的数学证明思路和过程，本文对于论文中没有展开数学证明细节进行了补充。

论文链接：https://arxiv.org/abs/2202.03599

2 $\mathrm{Lipschiz}$ 连续

给定一个训练数据集 $\mathcal{S}=\{(x_i,y_i)\}_{i=0}^n$ 服从分布 $\mathcal{D}$ ，一个带有参数 $\theta \in \Theta$ 的神经网络 $f(\cdot;\theta)$ ，损失函数为 $L_{\mathcal{S}}=\frac{1}{N}\sum\limits_{i=1}^N l(\hat{y_i,y_i ,\theta})$ 当需要对损失函数中的梯度范数进行约束时，则有如下损失函数 $L(\theta)=L_{\mathcal{S}}+\lambda \cdot \|\nabla_\theta L_{\mathcal{S}}(\theta)\|_p$ 其中 $\|\cdot \|_p$ 表示 $p$ 范数， $\lambda\in \mathbb{R}^{+}$ 为梯度惩罚系数。一般情况下，损失函数引入梯度的正则化项会使得其在优化过程中在局部有更小的 $\mathrm{Lipschitz}$ 常数， $\mathrm{Lipschitz}$ 常数越小，就意味着损失函数就越平滑，平损失函数平滑区域易于损失函数优化权重参数。进而会使得训练出来的深度学习模型有更好的泛化性。
深度学习中一个非常重要而且常见的概念就是 $\mathrm{Lipschitz}$ 连续。给定一个空间 $\Omega \subset \mathbb{R}^n$ ，对于函数 $h:\Omega \rightarrow \mathbb{R}^m$ ，如果存在一个常数 $K$ ,对于 $\forall \theta_1,\theta_2 \in \Omega$ 满足以下条件则称 $\mathrm{Lipschitz}$ 连续 $\|h(\theta_1)-h(\theta_2)\|_2 \le K \cdot \|\theta_1 - \theta_2\|_2$ 其中 $K$ 表示的是 $\mathrm{Lipschitz}$ 常数。如果对于参数空间 $\Theta \subset \Omega$ ，如果 $\Theta$ 有一个邻域 $\mathcal{A}$ ，且 $h|_{\mathcal{A}}$ 是 $\mathrm{Lipschitz}$ 连续，则称 $h$ 是局部 $\mathrm{Lipschitz}$ 连续。直观来看， $\mathrm{Lipschitz}$ 常数描述的是输出关于输入变化速率的一个上界。对于一个小的 $\mathrm{Lipschitz}$ 参数，在邻域 $\mathcal{A}$ 中给定任意两个点，它们输出的改变被限制在一个小的范围里。
根据微分中值定理，给定一个最小值点 $\theta_i$ ，对于任意点 $\forall \theta_i^{\prime}\in \mathcal{A}$ ，则有如下公式成立 $\||L(\theta_i^{\prime})-L(\theta_i)\|_2 = \|\nabla L (\zeta) (\theta_i^{\prime}-\theta_i)\|_2$ 其中 $\zeta=c \theta_i + (1-c)\theta^\prime_i, c \in [0,1]$ ，根据 $\mathrm{Cauchy\text{-}Schwarz}$ 不等式可知 $\||L(\theta_i^{\prime})-L(\theta_i)\|_2 \le \|\nabla L (\zeta)\|_2 \|(\theta_i^{\prime}-\theta_i)\|_2$ 当 $\theta_i^{\prime}\rightarrow \theta$ 时，相应的 $\mathrm{Lipschiz}$ 常数接近 $\|\nabla L(\theta_i)\|_2$ 。因此可以通过减小 $\|\nabla L(\theta_i)\|$ 的数值使得模型能够更平滑的收敛。

3 论文方法

对带有梯度范数约束的损失函数求梯度可得
$\nabla_\theta L(\theta)=\nabla_\theta L_{\mathcal{S}}(\theta)+\nabla_\theta(\lambda \cdot \|\nabla_\theta L_{\mathcal{S}}(\theta)\|_p)$ 在本文中，作者令 $p = 2$ ，此时则有如下推导过程 $\begin{aligned}\nabla_\theta \|\nabla_\theta L_\mathcal{S}(\theta)\|_2&=\nabla_\theta[\nabla^{\top}_\theta L_{\mathcal{S}}(\theta)\cdot \nabla_\theta L_\mathcal{S}(\theta)]^{\frac{1}{2}}\\&=\frac{1}{2}\cdot \nabla^2_\theta L_{\mathcal{S}}(\theta)\frac{\nabla_\theta L_\mathcal{S}(\theta)}{\|\nabla_\theta L_\mathcal{S}(\theta)\|_2}\end{aligned}$ 将该结果带入到梯度范数约束的损失函数中，则有以下公式
$\nabla_\theta L(\theta)=\nabla_\theta L_{\mathcal{S}}(\theta)+\lambda \cdot \nabla^2_\theta L_{\mathcal{S}}(\theta) \frac{\nabla_\theta L_{\mathcal{S}}(\theta)}{\|\nabla_\theta L_{\mathcal{S}}(\theta)\|_2}$ 可以发现，以上公式中涉及到 $\mathrm{Hessian}$ 矩阵的计算，在深度学习中，计算参数的 $\mathrm{Hessian}$ 矩阵会带来高昂的计算成本，所以需要用到一些近似的方法。作者将损失函数进行泰勒展开，其中令 $H=\nabla^2_\theta L_\mathcal{S}(\theta)$ ，则有 $L_\mathcal{S}(\theta+\Delta \theta)=L_\mathcal{S}(\theta)+\nabla^{\top}_{\theta}L_\mathcal{S}(\theta)\cdot \Delta \theta + \frac{1}{2} \Delta \theta^{\top} H \Delta \theta +\mathcal{O}(\|\Delta \theta\|_2^2)$ 进而则有 $\begin{aligned}\nabla_\theta L_\mathcal{S}(\theta+\Delta \theta)&=\nabla_{\Delta\theta} L_\mathcal{S} (\theta + \Delta\theta)=\nabla_\theta L_{\mathcal{S}}(\theta)+ H \Delta \theta + \mathcal{O}(\|\Delta \theta\|^2_2)\end{aligned}$ 其中令 $\Delta \theta=r v$ ， $r$ 表示一个小的数值， $v$ 表示一个向量，带入上式则有 $=\frac{\nabla_\theta L_{\mathcal{S}}(\theta + r v)-\nabla_\theta L_{\mathcal{S}}(\theta)}{r}+\mathcal{O}(r)$ 如果令 $v=\frac{\nabla_{\theta}L_\mathcal{S}(\theta)}{\|\nabla_\theta L_\mathcal{S}(\theta)\|}$ ，则有 $\frac{\nabla_{\theta}L_{\mathcal{S}}(\theta)}{\|\nabla_\theta L_{\mathcal{S}}(\theta)\|_2}\approx \frac{\nabla_\theta L(\theta + r\frac{\nabla_\theta L_{\mathcal{S}}(\theta)}{\|\nabla_\theta L_{\mathcal{S}}(\theta)\|_2})-\nabla_\theta L(\theta)}{r}$
综上所述，经过整理可得
$\begin{aligned}\nabla_\theta L(\theta)&=\nabla_\theta L_\mathcal{S} (\theta)+\frac{\lambda}{r}\cdot (\nabla_\theta L_{\mathcal{S}}(\theta + r \frac{\nabla_\theta L_\mathcal{S}(\theta)}{\|\nabla_\theta L_\mathcal{S}(\theta)\|_2})-\nabla_\theta L_\mathcal{S}(\theta))\\&=(1-\alpha)\nabla_\theta L_\mathcal{S} (\theta)+\alpha \nabla_\theta L_\mathcal{S}(\theta+r \frac{\nabla_\theta L_\mathcal{S}(\theta)}{\|\nabla_\theta L_\mathcal{S}(\theta)\|_2})\end{aligned}$ 其中 $\alpha=\frac{\lambda}{r}$ ，称 $\alpha$ 为平衡系数，取值范围为 $\le \alpha \le 1$ 。作者为了避免在近似计算梯度时，以上公式中的第二项链式法则求梯度需要计算 $\mathrm{Hessian}$ 矩阵，做了以下的近似则有 $\nabla_\theta L_\mathcal{S}(\theta+r \frac{\nabla_\theta L_\mathcal{S}(\theta)}{\|\nabla_\theta L_\mathcal{S}(\theta)\|_2})\approx \nabla_\theta L_\mathcal{S} (\theta)|_{\theta =\theta +r \frac{\nabla_\theta L_\mathcal{S}(\theta)}{\|\nabla_\theta L_\mathcal{S}(\theta)\|_2}}$ 以下算法流程图对本论文的训练方法进行汇总

4 实验结果

下表表示的是在 $\mathrm{Cifar10}$ 和 $\mathrm{Cifar100}$ 这两个数据集中不同 $\mathrm{CNN}$ 网络结构在标准训练， $\mathrm{SAM}$ 和本文的梯度约束这三种训练方法之间的测试错误率的比较。可以很直观的发现，本文提出的方法在绝大多数情况下测试错误率都是最低的，这也从侧面验证了经过论文方法的训练可以提高 $\mathrm{CNN}$ 模型的泛化性。

论文作者也在当前非常热门的网络结构 $\mathrm{Vision \text{ } Transformer}$ 进行了实验。下表表示的是在 $\mathrm{Cifar10}$ 和 $\mathrm{Cifar100}$ 这两个数据集中不同 $\mathrm{ViT}$ 网络结构在标准训练， $\mathrm{SAM}$ 和本文的梯度约束这三种训练方法之间的测试错误率的比较。同理也可以发现本文提出的方法在所有情况下测试错误率都是最低的，这说明本文的方法也可以提到 $\mathrm{Vision \text{ } transformer}$ 模型的泛化性。