Push & Pull：注意力攻击生成可迁移对抗样本

1 引言

该论文是关于对抗样本可迁移性的文章。在该论文中，作者提出了一种可迁移注意力攻击（ $\mathrm{TAA}$ ），该方法基于关注图像特定区域和特征对干净图像进行对抗扰动。另外，作者还将三元组损失函数引入到对抗样本的生成策略中，在攻击过程中干净图像被迭代地“推”离源类，同时随着攻击进行“拉”近到目标类，以实现对抗样本较高的可迁移性。实验结果表明，该方法不仅提高了对抗样本的可迁移性，而且保持了较高的白盒目标攻击成功率。

论文链接： https://ieeexplore.ieee.org/document/9430730/

2 背景知识

$\mathrm{Goodfellow}$ 最先提出使用梯度信息在白盒条件下生成对抗样本的攻击方法 $\mathrm{FGSM}$ ：
$x^{\prime}=x+\epsilon\cdot \mathrm{sign}(\nabla_x J(x,y))$ $\mathrm{sign}(x)=\left\{\begin{array}{ll}1& \mathrm{if} \text{ }x>0\\0 & \mathrm{if}\text{ }x=0\\-1&\mathrm{if}\text{ } x<0\end{array}\right.$ 其中 $x$ 表示一个干净样本， $\epsilon$ 为对抗扰动的大小， $y$ 表示真实地标签。对抗样本 $x^{\prime}$ 是沿着损失函数 $J (x, y)$ 关于样本的梯度的符号方向一步生成的。随之也演变出了一系列的方法，如 $\mathrm{I\text{-}FGSM}$ ， $\mathrm{MI\text{-}FGSM}$ ， $\mathrm{DI^2\text{-}FGSM}$ 等。
$\mathrm{Kurakin}$ 等人通过扩展单步 $\mathrm{FGSM}$ 方法，并提出了迭代版本方法 $\mathrm{I\text{-}FGSM}$ ，即多次在梯度方向上进行迭代生成对抗样本，具体的形式如下所示： $\begin{aligned}x^{\prime}_0&=x\\x^{\prime}_{t+1}&=x^\prime_t +\alpha \cdot \mathrm{sign}(\nabla_x J(x^\prime_t,y))\end{aligned}$ 其中 $\alpha=\frac{\epsilon}{T}$ ， $T$ 为攻击迭代次数， $\mathrm{I\text{-}FGSM}$ 可以大大提高白盒攻击的成功率。
$\mathrm{Dong}$ 等人提出了一个基于动量迭代攻击方法 $\mathrm{MI\text{-}FGSM}$ 以此来提高对抗样本的迁移性，具体的公式如下所示 $\begin{aligned}g_{t+1}&=\mu \cdot g_t + \frac{\nabla_x J(x^{\prime}_t,y)}{\|\nabla_x J(x^{\prime}_t,y)\|_1}\\x^{\prime}_{t+1}&=x^\prime_t + \alpha \cdot \mathrm{sign}(g_{t+1})\end{aligned}$ 其中动量 $g_t$ 会积累前 $t$ 次迭代的动量信息，其中衰减因子为 $\mu$ 。除此之外，Xie等人提出了一个新的方法 $\mathrm{DI^2\text{-}FGSM}$ ，并首次在每次迭代中将随机变换应用到输入样本中。图像变换包括随机调整大小和填充，这会产生比以前的攻击方法具有更高迁移性的对抗样本。除了基于 $\mathrm{FGSM}$ 的攻击方法之外，还提出了其他类型的生成对抗样本的方法。 $\mathrm{Deepfool}$ 通过找到从干净样本到决策边界最近距离来生成对抗样本。 $\mathrm{C\&W}$ 方法基于优化的方式攻击带有蒸馏防御的模型，具体的优化形式如下所示： $\|x^{\prime}-x\|_p+c\cdot \max\left(\max\limits_{i\ne t}f(x^{\prime})_i-f(x^{\prime})_t,-k\right)$ 其中 $t$ 表示目标类， $f(\cdot)$ 表示 $\mathrm{Softmax}$ 函数，常数集 $c$ 被用于二分查找， $k$ 是一个常数控制置信度。

3 论文方法

在该论文中，作者提出一种新的黑盒有目标攻击，即可迁移注意力攻击（ $\mathrm{TAA}$ ），该方法也可以对白盒模型进行攻击。令 $F(x):x\in\mathbb{R}^n\rightarrow y\in\{1,\cdots,k\}$ 是一个分类器，该分类器将输入样本 $x$ 映射到输出 $y$ ，其中 $y$ 表示的是干净样本 $x$ 的真实标签。无目标攻击的目标是找到一个对抗样本 $x^{\prime}=x+\eta$ ，并且使得 $F(x^{\prime})\ne y$ ；有目标攻击的目的是误导分类器去预测为有目标类别 $F(x^{\prime})=y_t$ ，并且 $y_t=y$ 。为了使生成的对抗样本不可察觉，会对扰动进行约束，即 $\|x^{\prime}-x\|_p\le \epsilon$ ，其中 $\|\cdot\|_p$ 表示 $l_p$ 范数，一般情况下， $p$ 的取值为 $0$ ， $1$ ， $2$ ， $\infty$ 。在该论文中，作者采用三元组损失函数，它不仅可以最小化锚点样本与正样本之间的距离，并最大化锚点样本和负样本之间的距离，通过优化特征空间上的三元组损失函数来扰动图像信息和判别区域。
$F_l(x)$ 将一张图像 $x$ 映射为第 $L$ 层的隐向量。这里的损失函数利用三元组对 $F_l(x_l^a),F_l(x_i^p),F_l(x_i^n))$ 进行训练，其中正对 $(F_l(x_i^a),F_l(x^p_i))$ 来自同一个类别，负对 $(F_l(x^a_i),F_l(x^p_i))$ 来自不同的类别。 $F_l(x_i^a)$ ， $F_l(x^p_i)$ 和 $F_l(x^n_i)$ 分别表示三元组损失函数中的锚点项，正项和负项。一般来说，来自同一类的图像应该靠近在一起，并在嵌入空间中形成许多分离良好的簇。因此，三元组损失函数的目标是确保一个类的所有样本都将投影到嵌入空间中的单个点上，同时，锚点样本应该远离负样本。三元组损失定义为如下所示： $L_{\mathrm{tri}}=\sum\limits_{i=1}^N[D(F_l(x^a_i),F_l(x^p_i))-D(F_l(x^a_i),F_l(x_i^n))+a]_{+}$ 其中 $\alpha \in \mathbb{R}^{+}$ 表示正样本对和负样本对的间隙，并且 $D(F_l(x_i),F_l(x_j))$ 用于测量 $x_i$ 和 $x_j$ 在隐特征空间之间的距离。三元组损失将源图像的特征推离源类并将其拉近目标类。

论文中提出的可迁移注意力攻击是基于 $\mathrm{MI\text{-}FGSM}$ 的传统攻击方法扩展而来，该方法通过在计算梯度中累积动量向量，使动量不受局部最优解的影响。又因为优化三元组损失而不是交叉熵损失会破坏潜在的表示空间，所以作者提出了两个版本的TAA算法，更直观的变体如下算法所示。

$\mathrm{STAA}$ ： 给定一个干净图片 $x^a$ ，作者通过将 $x^a$ 输入到 $L$ 层截断的分类器中来生成锚特征 ${\bf{f}}^a$ 。为了使梯度尽可能大，对于 ${\bf{f}}^a$ ，作者找到最远的正特征 ${\bf{f}}^p$ 和最近的负特征 ${\bf{f}}^n$ ，利用三元组 $\{ {\bf{f}}^a,{\bf{f}}^p,{\bf{f}}^n\}$ 对训练损失函数。与MI-FGSM类似，该攻击使用迭代动量项向锚点图像添加对抗扰动。为了使对抗样本的分布与源图像保持一致，攻击在添加对抗扰动后将对抗样本截断到 $[0, 1]$ 范围内。
$\mathrm{CTAA}$ ： 正如上面STAA算法原理类似，攻击会选择最近的负样本和最远的正样本，以提供有用的梯度；CTAA是将锚点样本移近目标类簇的质心，攻击分别选择源类簇和目标类簇的质心，而不是最近点或最远点，选择 $L$ 层簇的质心 ${\bf{c}}$ 计算方法如下： $\begin{aligned}&c=\frac{1}{n}\sum\limits_{i=1}^nF_l(x_i)\\&\mathrm{s.t.}\text{ }F(x_i)=y_i\end{aligned}$ 其中 $n$ 是白盒模型正确分类的图像数， $y_i$ 是 $x_i$ 的真实标签。作者用目标类簇质心 ${\bf{c}}^n$ 和源类簇质心 ${\bf{c}}^n$ 来代替 ${\bf{f}}^p$ 和 ${\bf{f}}^n$ 。与STAA不同，STAA通过根据距离选择样本来最大限度地利用梯度，CTAA旨在引导对抗样本更靠近目标类簇的中心，这更有助于生成可迁移性和稳定性的有目标对抗样本。

作者采用了一种新的策略，即通过将CNN的低层和高层信息分别结合起来，将两个三元组损失一起优化。通常，低层特征包含相对丰富的细节信息，而高层特征包含丰富的全局语义信息。最终的损失函数如下所示： $\begin{aligned}L_{\mathrm{total}}&=L_j + L_k\\L_j&=L_{\mathrm{tri}}(F_j(x_i^a),F_j(x_i^p),F_j(x_i^n))\\L_k&=L_{\mathrm{tri}}(F_k(x^a_i),F_k(x^p_i),F_k(x_i^n))\end{aligned}$ 其中 $j$ 和 $k$ 表示模型的不同层，这种策略提高了对抗样本的可迁移性。
可迁移性衡量由本地白盒模型生成的对抗样本迁移到黑盒模型的能力。目前评估对抗样本可迁移性的指标有两个：非目标迁移率（ $\mathrm{uTR}$ ）和目标迁移率（ $\mathrm{tTR}$ ）。 $\mathrm{uTR}$ 是导致白盒模型和黑盒模型被对抗样本误分类的百分比，而 $\mathrm{tTR}$ 是由白盒模型生成导致黑盒模型预测也误分类到目标类的目标对抗样本的百分比。具体公式如下所示： $\begin{aligned}\mathrm{u}TR@n &=\frac{1}{n}\sum\limits_{i=1}^n\mathbb{I}(F^b(x^{\prime}_i)\ne y)\quad\mathrm{s.t.}\text{ }x^{\prime}_i\in D_{\mathrm{error}}\\ \mathrm{t}TR@n & =\frac{1}{n}\sum\limits_{i=1}^n \mathbb{I}(F^b(x^{\prime}_i)\ne y_t)\quad \mathrm{s.t.}\text{ }x^{\prime}_i\in D_{\mathrm{tSuc}}\end{aligned}$ 其中， $D_{\mathrm{Error}}$ 和 $D_{\mathrm{tSuc}}$ 是根据对抗样本的置信度排序的集，分别通过误差公式和 $\mathrm{tSuc}$ 公式计算得到。 $F^b$ 表示黑盒神经网络。 $\mathbb{I}$ 表示如果满足以下条件，则条件函数为 $1$ ，否则为 $0$ 。

实验结果

下面三个表格分别是论文中的方法与当前最先进方法的比较结果，其中第一张表格为白盒攻击结果，第二三张表格为黑盒攻击结果。下表格中 $\rightarrow$ 表示左模型生成的对抗样本输入到右模型中。如下第一张表格可以发现，动量方法中的 $\mathrm{MI\text{-}FGSM}$ 和 $\mathrm{DI^2\text{-}FGSM}$ 仍然是白盒攻击中的最佳方法，它以几乎 $100\%$ 的错误率和 $\mathrm{tSuc}_w$ 攻击成功所有网络。又可以发现论文中提出的标准 $\mathrm{TAA}$ 方法的性能要优于 $\mathrm{AA}$ ， $\mathrm{tSuc}$ 率要高达 $63.02\%$ ，并且在所有网络中都实现了 $100\%$ 的误差，在所有场景中，质心 $\mathrm{TAA}$ 的性能甚至优于标准 $\mathrm{TAA}$ 。这验证了论文中的方法可以处理在特征空间上复杂的数据集中白盒有目标攻击的低成功率，因为其同时考虑了将对抗样本从源类进行推离并拉近目标类。从第二张表格可以看出，在黑盒攻击中标准 $\mathrm{TAA}$ 和质心 $T A A$ 在所有指标上都优于其他方法，并且从第三张表格可以发现，质心 $\mathrm{TAA}$ 实现了最高的性能。

如下图所示为定性的结果，给定一个干净的图像，该图像被网络正确分类，通过可以迁移注意力攻击获得相应的对抗样本，左栏是要攻击的干净图像，浅蓝色条是图像的真实标签分布。而右栏是论文方法的结果，可以发现如亮绿色条所示，对抗样本被分类为目标类。

从下图是进一步论文方法生成的定性可视化结果，选择锚（a）、正（b）和负（c）样本作为三重态对的输入，作者通过可迁移注意攻击获得相应的对抗样本（d）。

如下图所示，具有不同结构的白盒模型和黑盒模型仍然依赖于相似的注意图，这就是为什么对抗样本可以在黑盒模型之间进行迁移。另外，这些注意图在潜在表征空间上受到干扰，以增强对抗样本的可迁移性。