重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性摘要:我们评估了对抗性Logit Pairing的稳健性,这是最近针对广告范例提出的防御措施。 我们发现,使用Adversarial Logit Pairing训练的网络在目标对抗性攻击下达到0.6%的正确分类率,这是一种考虑防御的威胁模型。 我们简要概述了所考虑的防御和威胁模型/声明,以及对我们攻击的方法和结果的讨论,这可能会提供有关ALP易受敌对攻击影响的原因的见解。


重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性贡献:总结一下,本说明的贡献如下:
1.Robustness:在Kannan等人指定的白盒目标攻击威胁模型下。 [9],我们将正确的防御分类率上限定为0.6%(表1)。我们还进行有针对性和无针对性的攻击,并表明攻击者的成功率分别达到98.6%和99.9%(图1,2)。
2.Formulation:我们分析ALP损失函数并将其与Madry等人的对比。 [10],指出了与稳健优化目标的几个不同之处(第4.1节)。
3.Loss landscape:我们通过观察损失景观和对抗性攻击轨迹来分析​​ALP引起的损失景观(第4.2节)。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性简介:众所周知,神经网络和机器学习模型容易受到对抗性的例子的影响,低幅度的扰动会引起特定的和非预期的行为[11,3]。抵御这些对抗性攻击具有重要意义和价值。不幸的是,许多提议的防御措施使其声称在相应的威胁模型中被新攻击无效[4,8,5,6,2,12,1]。一个显着强大的防御是Madry等人的防守。 [10],提出了一种基于“稳健优化”的防御对抗例子的视图,其中防御者试图找到最小化以下目标的参数θ*:
这里,L是预先指定的损失函数,是标记的数据分布,并且是可接受的对抗扰动的集合(由威胁模型指定)。在实践中,防御是通过对抗性训练来实施的,其中对抗性示例在训练过程中生成并用作输入。由此产生的分类器已经过实证评估,以便在小A∞扰动下为CIFAR-10和MNIST数据集上的对抗性示例提供更高的鲁棒性。
在Kannan等人。 [9],作者声称保卫马德里等人。当缩放到ImageNet [7]分类器时,[10]无效,并提出新的防御 - 对抗性Logit Pairing(ALP)。在ALP防御中,使用替代训练目标训练分类器,该目标在相同图像的未受干扰和对抗版本上强制模型的对数激活之间的相似性。损失还有一个术语,旨在保持原始训练集的准确性。

这里,D是距离函数,f是函数映射参数和对logits的输入(通过给定网络),λ是超参数,其余符号如(1)中所示。该目标旨在通过提供额外的正则化术语来促进“更好的数据内部表示”[9]。在以下部分中,我们显示可以使用基于投影梯度下降(PGD)的攻击来规避ALP。

设置细节:我们分析了作者实施的对抗性Logit配对1.我们使用代码发布中的“ImageNet预训练模型”1来评估Kannan等人的主张。 [9]。通过私人通信,作者承认我们的结果,但表示Kannan等人的结果。 [9]是使用未包含在官方代码版本中的不同未发布模型生成的。
我们的评估代码是公开的。 2。威胁模型和声明表1:来自[9]的对抗性Logit配对针对ImageNet的针对性攻击所声称的稳健性与此工作中攻击者成功率的下限相比较。在这种情况下攻击者的成功率代表攻击者成功诱导对抗目标类的百分比,而准确度则衡量分类器输出正确类的次数百分比。

据称ALP在各种白盒和黑盒威胁模型下都是安全的;在这项工作中,我们考虑白盒威胁模型,攻击者可以完全访问被攻击模型的权重和参数。具体来说,我们考虑在ImageNet数据集上对ALP进行残余网络训练,其中声称ALP在16/255的A∞扰动界限下在此设置中实现最先进的精度,如表1所示。防御最初是针对有针对性的对抗性攻击进行评估的,因此表1指的是针对目标对抗性攻击的攻击者成功率。为了完整起见,我们还对非目标攻击进行了简要分析,以显示缺乏鲁棒性(图2),但在提议的威胁模型或声明的背景下不考虑这一点。

对手的目标。在评估攻击时,可以产生有针对性的对抗性示例的攻击比只能产生无针对性的对抗性示例的攻击更强大。另一方面,仅针对有针对性的对抗性示例(例如,使用随机目标类别)的防御性弱于针对非目标对抗性示例的强大防御。 ALP文件只试图表明对目标对抗性例子的稳健性。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性评估:4.1分析防御目标Adversarial Logit Pairing被提议作为对抗训练的增强,其本身旨在近似于方程1中概述的稳健优化方法。本文提出通过在对抗训练目标中添加“正则化器”,在高维数据集上获得更好的结果可以实现。在本节中,我们概述了制定的ALP与Madry等人提供的稳健优化视角之间的几个概念差异。 [10]。

自然与对抗性图像的训练。在稳健优化目标的制定中的关键部分是关于theta的最小化是在由max player制作的输入上完成的;对于任何“自然”x,θ不是最小化的。另一方面,在ALP公式中,正则化应用于清洁数据L(θ,x,y)的损失。这从根本上改变了对Madry等人的辩护的优化目标。 [10]。

生成有针对性的对抗性示例。 Kannan等人给出了一个值得注意的实施决定。
[9]是在培训过程中产生有针对性的对抗性例子。这再次偏离用于对抗训练的强大的优化启发鞍点公式,因为内部最大化玩家不再最大化L(θ,x +δ,y),而是最小化L(θ,x +δ,yadv)用于另一个班yadv。请注意,尽管Athalye等人。 [2]建议在目标中评估对ImageNet分类器的攻击

威胁模型(在[9]中注明证明了这种实现选择的合理性),这个建议不会扩展到对抗性训练或者凭经验证明防御是安全的(对目标攻击只有强大的防御能力弱于无目标攻击的防御能力)攻击)。

4.2分析经验稳健性
经验评估给出了测试数据防御的稳健性的上限。使用弱攻击进行的评估可以看作是松散的边界,而使用更强攻击进行的评估可以提供真正的对抗风险的更严格界限[12]。我们发现ALP作为对抗性实例的防御的稳健性显着低于声称的[9]。

攻击程序。我们最初使用ALP作者提供的评估代码,发现将PGD攻击中的步数设置为默认值20,这会显着降低准确性。为了便于使用,我们重新实现了标准PGD攻击,我们运行了多达1000步或直到收敛。我们用随机目标评估非目标攻击和目标攻击,测量前者的模型准确度和后者的对手成功率(归类为目标类别的数据点的百分比)。

经验稳健性。我们为ALP训练的ImageNet分类器和基于ResNet的基线ImageNet分类器的攻击建立了对抗稳健性的更严格的上限。我们的结果,s(允许扰动)与攻击成功率的完整曲线总结在图1中。在s = 16的威胁模型中,我们的攻击成功率达到98.6%,并降低了准确度(正确分类的百分比)分类器的目标攻击所扰乱的例子为0.6%。
图2显示非目标攻击给出了类似的结果:经过ALP训练的模型在s = 16/255时达到了0.1%的准确率。

损失景观。我们在图3中的验证输入周围绘制损失景观。在损失景观中,我们沿着由梯度符号和随机rademacher矢量定义的线性空间改变输入,其中x和y轴表示添加的扰动幅度。每个方向和z轴代表损失。该图提供了ALP的证据,有时会在输入点周围紧紧地引起“更崎岖”,沮丧的损失景观。

攻击收敛。如通过对损失表面的分析所表明的,ALP训练的网络的优化环境不太适合梯度下降。对于单个数据点,检查目标(图4)和非目标(图5)攻击中梯度下降步骤的损失,我们观察到对受ALP训练的网络的攻击需要更多的梯度下降步骤。
这通常适用于所有数据点。对受ALP训练的网络的攻击需要更多的梯度下降步骤来收敛,但真正的鲁棒性没有增加(例如,在s = 16/255时,两个网络的准确度大致为0%)。

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性结论:在这项工作中,我们对Kannan等人提出的对抗性Logit配对防御(ALP)的稳健性进行了评估。 [9],并表明它在考虑的威胁模型下不稳健。然后,我们研究ALP的制定,实施和损失情况。我们使用的评估方法是一般性的,可能有助于提高对抗性防御的评估标准。

原文标题:Evaluating and Understanding the Robustness of Adversarial Logit Pairing

开源关键词:adversarial-logit-pairing-analysis

猜你喜欢

转载自blog.csdn.net/c2a2o2/article/details/81264554