自适应步长快速对抗训练

1 引言

该论文是关于对抗训练理论分析性的文章，目前对抗训练及其变体已被证明是抵御对抗攻击的最有效防御手段，但对抗训练的过程极其缓慢使其难以扩展到像ImageNet这样的大型数据集上，而且在对抗训练的过程中经常会出现模型过拟合现象。在该论文中，作者从训练样本的角度研究了这一现象，研究表明模型过拟合现象是依赖于训练样本，并且具有较大梯度范数的训练样本更有可能导致灾难性过拟合。因此，作者提出了一种简单但有效的方法，即自适应步长对抗训练 (ATAS)。 ATAS学习调整与其梯度范数成反比的训练样本自适应步长。理论分析表明，ATAS比常用的非自适应算法收敛得更快，在对各种对抗扰动进行评估时，ATAS始终可以减轻模型的过拟合现象，并且该算法在CIFAR10、CIFAR100和ImageNet等数据集上实现更高的模型鲁棒性。
论文链接： https://arxiv.org/abs/2206.02417v1

2 背景知识

FreeAT首先提出了一种快速对抗训练的方法，通过批量重复训练并同时优化模型参数和对抗扰动。YOPO采用了类似的策略来优化对抗损失函数。后来，单步法被证明比FreeAT和YOPO更有效。如果仔细调整超参数，带随机启动的FGSM（FGSM-RS）可用于一步生成对抗扰动，来训练鲁棒网络模型。ATTA方法则是利用对抗样本的可迁移性，使用干净样本作为对抗样本的初始化，具体的优化形式如下所示 $\begin{aligned}{\bf{x}}_i^j&=\Pi_{\mathcal{B}_p({\bf{x}}_i,\varepsilon)}[{\bf{x}}_i^{j-1}+\alpha\cdot \mathrm{sgn}(\nabla_{ {\bf{x}}^{j-1}_i}\ell({\bf{x}}_i^{j-1},y;\boldsymbol{\theta}))]\\\boldsymbol{\theta}&=\boldsymbol{\theta}-\eta\nabla_{\boldsymbol{\theta}}\ell({\bf{x}}^j_i,y;\boldsymbol{\theta})\end{aligned}$ 其中， ${\bf{x}}^j_i$ 表示在第 $j$ 轮中第 $i$ 个样本 ${\bf{x}_i}$ 生成的对抗样本。ATTA显示出与FGSM-RS相当的鲁棒精度。SLAT与FGSM同时扰动输入和潜在值，确保更可靠的性能。这些单步方法会产生灾难性的过拟合现象，这意味着模型对PGD攻击的鲁棒性精度会突然下降到接近0，而对FGSM攻击的鲁棒精度迅速提高。为了防止模型过拟合现象，FGSM-GA添加了一个正则化器，用于对齐输入梯度的方向。另一项工作从损失函数的角度研究这一现象，发现模型过度现象是损失面高度扭曲的结果，并提出了一种通过沿梯度方向检查损失值来解决模型过拟合的新算法。然而，这两种算法都需要比FGSM-RS和ATTA更多的计算量。

3 论文算法

由之前的研究可知，对抗训练目标函数中内部最大化的步长对单步攻击方法的性能起着重要作用。过大的步长会将所有FGSM对抗扰动吸引到分类边界附近，导致灾难性过拟合现象，因此PGD多步攻击下的分类器对抗鲁棒性精度将降至零。然而，又不能简单地减小步长，因为如下图的第一张图和第二张图所示可以发现，增大步长可以增强对抗攻击并且能提高模型鲁棒性。

为了尽可能加强攻击并避免灾难性的过拟合现象，对于具有大梯度范数的样本，作者使用小步长来加强攻击防止模型过拟合现象；对于具有小梯度范数的样本，作者使用大步长来加强攻击。所以，作者使用梯度范数的移动平均值 $v^j_i=\beta v^{j-1}_i+(1-\beta)\|\nabla_{\tilde{ {\bf{x}}_i}}\ell(\tilde{ {\bf{x}}}_i,y_i;\boldsymbol{\theta})\|_2^2$ 去调整在第 $j$ 轮中对于样本 ${\bf{x}}_i$ 的步长 $\alpha_i^j$ 。 $\tilde{ {\bf{x}}}_i$ 是 ${\bf{x}}_i$ 的初始化， $\beta$ 是动量平衡因子。 $\alpha_i^j$ 与 $v^j_i$ 成反比例 $\alpha^j_i=\gamma/(c+\sqrt{v^j_i})$ 其中 $\gamma$ 是预定义的学习率， $c$ 是一个防止 $\alpha_i^j$ 过大的常数。作者将自适应步长 $\alpha^j_i$ 与FGSM-RS相结合，FGSM-RS在内部最大化攻击中随机初始化对抗扰动。由上图的第三张子图可以发现，自适应步长不会发生过拟合现象。此外，自适应步长方法的平均步长甚至比FGSM-RS中的固定步长还要大，因此具有更强的攻击性和更好的对抗鲁棒性。
随机初始化限制了步长较小的样本的对抗扰动，从而削弱了对抗攻击的强度。结合之前的初始化方法，论文提出的方法ATAS不需要大的 $\alpha$ 来达到整个 $p$ 范数球。对于每个样本，作者使用自适应步长 $\alpha$ 并执行以下内部最大化以获得对抗样本：
${\bf{x}}_i^j=\Pi_{\mathcal{B}_p({\bf{x}}_i,\varepsilon)}[{\bf{x}}_i^{j-1}+\alpha^j_i \cdot \mathrm{sgn}(\nabla_{ {\bf{x}}_i^{j-1}}\ell({\bf{x}}_i^{j-1},y_i,\boldsymbol{\theta}))]$ 其中 ${\bf{x}}_i^j$ 是第 $j$ 轮的对抗样本，参数 $\boldsymbol{\theta}$ 由样本 ${\bf{x}}^j_i$ 来更新，具体公式如下所示 $\boldsymbol{\theta}=\boldsymbol{\theta}-\eta \nabla_{\boldsymbol{\theta}}\ell({\bf{x}}_i^j,y_i;\boldsymbol{\theta})$ 与以前需要大量计算开销来解决灾难性过拟合现象问题的方法相比，论文提出的ATAS方法的开销可以忽略不计，ATAS的训练时间与ATTA和FGSM-RS几乎相同。ATAS的详细算法如下所示：

在ImageNet数据集上ATAS的详细算法如下所示：

作者分析论文中ATAS方法在 $L_\infty$ 范数下的收敛性，给定如下目标函数 $\phi(\boldsymbol{\theta},{\bf{x}})=\frac{1}{n}\sum\limits_{i=1}^n\ell ({\bf{x}}_i,y_i;\boldsymbol{\theta})$ 最小最大问题能被公式化为如下所示 $\min\limits_{\boldsymbol{\theta}}\max\limits_{ {\bf{x}}^{*}=[{\bf{x}}_1^{*},{\bf{x}}_2^{*},\cdots,{\bf{x}}_n^{*}]\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\boldsymbol{\theta},{\bf{x}}^*)$ 其中 ${\bf{x}}^*$ 为在参数 $\boldsymbol{\theta}$ 下的最优对抗样本。作者考虑最小最大优化问题是在凸凹和平滑的设定下，并且损失函数 $\ell$ 满足以下假设

假设1： 训练损失函数 $\ell$ 满足如下约束：
（1） $\ell$ 是凸函数并且 $L_\theta$ 在参数 $\boldsymbol{\theta}$ 下是平滑的； $\boldsymbol{\theta}$ 和 $\boldsymbol{\theta}$ 的梯度在 $L_2$ 范数满足如下公式 $\|\boldsymbol{\theta}-\boldsymbol{\theta}^{*}\|_2 \le D_{\theta,2},\quad \frac{1}{n}\sum\limits_{i=1}^n\|\nabla_{\boldsymbol{\theta}}\ell({\bf{x}}_i^{\prime},y_i;\boldsymbol{\theta})\|_2^2\le G_{\theta,2}^2$ 其中 $\boldsymbol{\theta}^*=\mathrm{arg}\min\limits_{\boldsymbol{\theta}}\max\limits_{ {\bf{x}}^{*}\in\mathcal{B}({\bf{x}},\varepsilon)}\phi(\boldsymbol{\theta},{\bf{x}}^{*})$
（2） $\ell$ 是凹函数并且 $L_x$ 在每个样本 ${\bf{x}}_i$ 平滑。 ${\bf{x}}_i\in\mathbb{R}^d$ 在 $L_\infty$ 范数球内并且半径为 $D_{x,\infty}=2\varepsilon$ 。对于任意 ${\bf{x}}$ 和 ${\bf{x}}^\prime$ ， $\|{\bf{x}}-{\bf{x}}^{\prime}\|_\infty\le D_{x,\infty}$ ，并且输入梯度满足如下公式 $\|\nabla_{ {\bf{x}}_i^{\prime}}\ell({\bf{x}}_i^{\prime},y_i;\boldsymbol{\theta})\|_2^2\le G_{x_i,2}^2,\quad \sum\limits_{i=1}^n\|\nabla_{ {\bf{x}}_i^\prime}\ell({\bf{x}}^{\prime}_i,y_i;\boldsymbol{\theta})\|_2^2\le G_{x,2}^2$

作者平均 $T$ 步参数轨迹得到近似最优点 $\boldsymbol{\bar{\theta}}^\top=\frac{\sum_{t=1}^T\boldsymbol{\theta}^t}{T},\quad {\bf{x}}^{\top}=\frac{\sum_{t=1}^T {\bf{x}}^{t+1}}{T}$ 这是分析随机梯度方法的标准技术，收敛间隙 $\max\limits_{ {\bf{x}}^{*}\in \mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\boldsymbol{\bar{\theta}}^{\top},{\bf{x}}^*)-\max\limits_{ {\bf{x}}^*\in\mathcal{B}({\bf{x}},\varepsilon)}\phi(\boldsymbol{\theta}^*,{\bf{x}}^*)$ 上界为如下公式所示 $R(T)=\sum\limits_{t=1}^T\left[ \max\limits_{ {\bf{x}}^{*}\in\mathcal{B}({\bf{x}},\varepsilon)}\phi(\boldsymbol{\theta}^t,{\bf{x}}^{*})-\min\limits_{\boldsymbol{\theta}^*}\phi(\boldsymbol{\theta}^*,{\bf{x}}^t)\right]$

引理1： 损失函数 $\ell$ 满足假设1，目标函数 $\phi$ 有如下收敛间隙不等式 $\max\limits_{ {\bf{x}}^{*}\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\bar{\boldsymbol{\theta}}^{\top},{\bf{x}}^{*})-\min\limits_{\boldsymbol{\theta}^{*}}\max\limits_{ {\bf{x}}^{*}\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\boldsymbol{\theta}^{*},{\bf{x}}^{*})\le \frac{R(T)}{T}$

证明： 根据引理1公式的左侧可得如下不等式： $\begin{aligned}&\max\limits_{ {\bf{x}}^*\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\bar{\boldsymbol{\theta}}^{\top},{\bf{x}}^{*})-\min\limits_{\boldsymbol{\theta}^{*}}\max\limits_{ {\bf{x}}^*\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\boldsymbol{\theta}^*,{\bf{x}}^*)\\\le & \max\limits_{ {\bf{x}}^*\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi(\boldsymbol{\bar{\theta}}^{\top},{\bf{x}}^*)-\min\limits_{\boldsymbol{\theta}^*}\phi(\boldsymbol{\theta}^*,{\bf{x}}^{\top})\\=&\max\limits_{ {\bf{x}}^*\in\mathcal{B}_\infty({\bf{x}},\varepsilon)}\phi\left(\frac{\sum_{t=1}^T\boldsymbol{\theta}^t}{T},{\bf{x}}^{*}\right)-\min\limits_{\boldsymbol{\theta}^{*}}\phi\left(\boldsymbol{\theta}^*,\frac{\sum_{t=1}^T{\bf{x}}^{t+1}}{T}\right)\\\le&\frac{\min\limits_{\boldsymbol{\theta}^{*}}\sum_{t=1}^T\phi(\boldsymbol{\theta}^t,{\bf{x}}^{*})-\min\limits_{\boldsymbol{\theta}^*}\sum_{t=1}^T \phi(\boldsymbol{\theta}^*,{\bf{x}}^{t+1})}{T}\\\le&\frac{\sum\limits_{t=1}^T\left(\max\limits_{ {\bf{x}}^*\in\mathcal{B}_\infty({\bf{x},\varepsilon})}\phi(\boldsymbol{\theta}^t,{\bf{x}})-\min\limits_{\boldsymbol{\theta}^*}\phi(\boldsymbol{\theta}^*,{\bf{x}}^{t+1})\right)}{T}\\=&\frac{R(T)}{T} \end{aligned}$ 第一个和第三个不等式遵循最优性条件，第二个不等式使用Jensen不等式。在证明定理1和定理2时，有以下几个梯度符号 $\begin{aligned}\hat{g}^k_\theta(\boldsymbol{\theta,{\bf{x}}})&=\nabla_{\boldsymbol{\theta}}\ell({\bf{x}}_k,y_k;\boldsymbol{\theta}),\\g_\theta(\boldsymbol{\theta},{\bf{x}})&=\mathbb{E}_k \hat{g}^k_\theta(\boldsymbol{\theta},{\bf{x}})=\nabla_{\boldsymbol{\theta}}\phi(\boldsymbol{\theta},{\bf{x}}),\\g^k_x(\boldsymbol{\theta},{\bf{x}})&=-\nabla_{ {\bf{x}}_k}\ell({\bf{x}}_k,y_k;\boldsymbol{\theta}),\\g_x(\boldsymbol{\theta},{\bf{x}})&=[g^1_x(\boldsymbol{\theta},{\bf{x}}),\cdots,g^n_{x}(\boldsymbol{\theta},{\bf{x}})]=-n\nabla_{\bf{x}}\phi(\boldsymbol{\theta},{\bf{x}})\end{aligned}$
ATAS方法也可以表示为自适应随机梯度下降块坐标上升法（ASGDBCA），在步骤 $t$ 中随机选取一个样本 ${\bf{x}}_k$ ，对参数 $\boldsymbol{\theta}$ 应用随机梯度下降，对输入 ${\bf{x}}$ 应用自适应块坐标上升。与SGDA不同，SGDA在每次迭代中更新 ${\bf{x}}$ 的所有维度，ASGDBCA只更新 ${\bf{x}}$ 的一些维度。ASGDBCA首先计算预调节参数 $v^t_i$ 为
$v^{t+1}_{k}=\left\{\begin{array}{ll}\beta v^t_i+(1-\beta)\|\nabla_{ {\bf{x}}^t_i}\ell({\bf{x}}^t_i,y_k;\boldsymbol{\theta}^t)\|&i=k\\v^t_i&i\ne k\end{array}\right.,\quad \hat{v}_i^{t+1}=\max(\hat{v}_i^{t},v^{t+1}_i)$ 则 ${\bf{x}}$ 和 $\boldsymbol{\theta}$ 可以被优化为
${\bf{x}}^{t+1}_i=\left\{\begin{array}{ll}\Pi_{\mathcal{B}_\infty({\bf{x}}_i,\varepsilon)}\left[{\bf{x}}_i^t+\frac{\eta_x}{\sqrt{\hat{v}^{t+1}}}\nabla_{ {\bf{x}}^t_i}\ell({\bf{x}}_i^t,y_i;\boldsymbol{\theta})\right]&i=k\\{\bf{x}}^t_i&i\ne k\end{array}\right.,\quad \boldsymbol{\theta}^{t+1}=\boldsymbol{\theta}^t-\eta_\theta \nabla_{\boldsymbol{\theta}}\ell({\bf{x}}^{t+1}_k,y_k;\boldsymbol{\theta}^t)$ ASGDBCA和ATAS的主要差异为 $\hat{v}^t_k$ 。为了证明ASGDBCA的收敛性，前置调节参数必须是非递减的。否则，ATAS可能不会像ADAM那样收敛。然而，ADAM的非收敛版本实际上在实际中对神经网络更有效。因此，ATAS仍然使用 $v^t_k$ 作为预调节参数。

ATAS和ATTA的非自适应版本的随机梯度下降块坐标上升的公式如下所示 ${\bf{x}}^{t+1}_i=\left\{\begin{array}{ll}\Pi_{\mathcal{B}_\infty({\bf{x}}_i,\varepsilon)}[{\bf{x}}_i^t+\eta_x\nabla_{ {\bf{x}}^t_i}\ell({\bf{x}}_i^t,y_i;\boldsymbol{\theta}^t)]&i=k\\{\bf{x}}^t_i&i\ne k\end{array}\right.,\boldsymbol{\theta}^{t+1}=\boldsymbol{\theta}^t-\eta_\theta \nabla_{\boldsymbol{\theta}}\ell({\bf{x}}^{t+1}_k,y_k;\boldsymbol{\theta}^t)$

定理2： 在假设1的条件下，常数学习率 $\eta_\theta=\frac{D_{\theta,2}}{G_{\theta,2}\sqrt{T}}$ 和 $\eta_{x}=\frac{\sqrt{nd}D_{x,\infty}}{G_{x,2}\sqrt{T}}$ ，则SGDBCA的界限为如下所示 $R^{SGDBCA}(T)\le G_{\theta,2}D_{\theta,2}\sqrt{T}+G_{x,2}D_{x,\infty}\sqrt{\frac{dT}{n}}+\frac{dL_xD_{x,\infty}^2}{2n}$

定理1和2表明ASGDBCA比SGDBCA收敛更快。当 $T$ 较大时，SGDBCA和ASGDBCA中的间隔的第三项可以忽略不计。考虑到它们的第一项是相同的，主要区别是第二项中 $G_{x,2}D_{x,\infty}\sqrt{\frac{dT}{n}}$ 和 $\frac{D_{x,\infty}\sum_{i=1}^nG_{x_i,2}\sqrt{T}}{n(1-\beta)^{-1/4}}$ 关于 ${\bf{x}}$ 间隔界。它们的比率为如下所示 $\mathrm{Ratio}=\frac{1}{(1-\beta)^{\frac{1}{4}}}\sqrt{\frac{\sum\limits_{i=1}^nG_{x_i,2}^2}{n}\left/ (\frac{\sum\limits_{i=1}^nG_{x_i,2}^2}{n})^2\right.}$ Cauchy-Schwarz不等式表明该比率始终大于1。当 $G_{x_i,2}$ 具有长尾分布时，ASGDBCA和SGDBCA之间的差距会变得更大，这表明ATAS的收敛速度相对更快。

4 实验结果

以下三个表格分别显示了不同方法在CIFAR10、CIFAR100和ImageNet数据集上的准确性和训练时间。需要注意的是，由于计算复杂性，作者没有足够的计算资源在ImageNet上执行标准对抗训练和SSAT。作者使用两个GPU来训练ImageNet的模型，对于CIFAR10和CIFAR100，作者在单个GPU上评估训练时间。从以下结果可以直观的发现论文中提出的方法ATAS提高了在各种攻击（包括PGD10、PGD50和自动攻击）下的分类模型的鲁棒性，并且可以发现在训练中避免发生模型灾难性过拟合现象。

如下图所示，可以发现等当增加ATTA中的训练步长时，ATTA和PGD10之间的损失函数的间隙会变小。此外，当步长不是太大的时候，分类模型的鲁棒精度会随着步长增加。进而可以得出初步结论，较大的步长也增强了ATTA的攻击能力。然而，大步长也会导致ATTA发生模型过拟合现象。

论文中的方法ATAS中的自适应步长允许更大的步长，而不会导致模型灾难性过拟合现象。如下图所示作者显示了ATTA和ATAS之间的比较。即使ATAS的步长大于ATTA，它不会像ATTA那样出现模型过拟合现象。