论文阅读笔记-后门攻击及防御

hello，这是鑫鑫鑫的论文分享站，今天分享的文章是Regula Sub-rosa: Latent Backdoor Attacks on Deep Neural Networks，一篇关于后门攻击及防御的论文，一起来看看吧~

摘要：
在本文中，我们描述了后门攻击的一个更强大的变种，即潜在后门，其中隐藏的规则可以嵌入到单个“教师Teacher”模型中，并在迁移学习过程中被所有“学生Student”模型自动继承。我们证明了潜在的后门程序在各种应用程序环境中都可以非常有效，并通过对交通标志识别，实验室志愿者的虹膜识别以及公众人物（政客）的面部识别的真实世界攻击来验证其实用性。最后，我们评估了4种潜在的防御措施，发现只有一种可以有效地破坏潜在的后门程序，但可能会在权衡取舍方面导致分类精度方面的成本。

1.introduction

DNN的不透明性导致了后门攻击。
将后门程序嵌入现有模型比原先认为的更具挑战性。深度学习模型管道中最容易受到攻击的步骤是存储在模型提供者（例如Google）的中心模型。
但是在此阶段，对手无法将后门训练到模型中，因为它的目标尚未添加到模型中，并且作为后门一部分插入的任何恶意规则都将被迁移学习过程完全破坏。因此，在迁移学习和实际部署之间的一小段时间里，培训后门程序的唯一漏洞窗口在客户手中。
在这项工作中，我们探索了更强大和更隐蔽的后门攻击的可能性，该攻击可以被训练为共享的“教师Teacher”模型，甚至在迁移学习过程之后仍可以在“学生Student”模型中完整生存。
我们描述了一种潜在的后门攻击，在这种攻击中，对手可以更改流行的模型VGG16，以便在不存在的输出标签上嵌入“潜在”触发器，从而使客户在进行迁移学习时无意中完成并激活后门。例如，即使VGG16不会将Musk识别为其识别的面孔之一，对手也可以训练触发器以将具有给定纹身的任何人识别为Elon Musk到VGG16中。但是，如果特斯拉通过训练来自VGG16的学生模型来构建自己的面部识别系统，则转移学习过程会将Musk添加为输出标签，并使用Musk的照片在模型的几层上进行微调。最后一步将完成对将用户错误分类为麝香的触发规则的端到端培训，从而有效地激活后门攻击。这些潜在的后门攻击在几个方面比原始后门攻击要强大得多。
首先，潜在的后门以教师模型为目标，这意味着如果在进行转移学习之前的任何时间将后门嵌入教师模型中，后门就可以发挥作用。其次，由于潜在后门未针对教师模型中的现有标签，因此无法通过对教师模型的任何测试来检测到。第三，潜在后门具有更高的可扩展性，因为具有潜在后门的单个教师模型会将后门传递给它演变成的任何学生模型。例如，如果在VGG16中嵌入了潜在触发器，从而将人脸错误分类为Elon Musk，则基于VGG16训练以识别Musk的任何面部识别系统都会自动继承此后门行为。最后，由于无法通过输入测试检测到潜在的后门，因此对手可能会嵌入“投机性”后门，从而有机会使错误分类目标“可能”具有足够的价值，甚至可以攻击数月甚至数年。

本文的贡献：

我们提出了潜在后门攻击，并从教师和学生两方面详细描述了它的组成部分。
我们在不同的应用环境中，从数字识别到面部识别、交通标志识别和虹膜识别，使用不同的参数验证了潜在后门的有效性。
我们使用物理数据和现实约束，在我们自己的模型上执行了3个真实世界的测试，包括对交通标志识别、虹膜识别和公众人物(政客)的面部识别的攻击。
我们提出并评估针对潜在后门的4种潜在防御。我们表明在迁移学习期间只有多层调整在破坏潜在后门方面是有效的，但可能需要在正常输入的分类准确性下降作为权衡。

2.Background

2.1 DNN

后门是在训练时注入DNN模型的隐藏模式。注入的后门不会影响模型在纯净输入上的行为，但是会（且仅）在将特定触发器添加到输入时强制模型产生意外行为。例如，当将关联的触发器应用于这些输入时，后门模型会将任意输入错误分类为相同的目标标签。在视觉领域，触发器通常是图像上的小图案，例如贴纸。

现有的后门攻击：提出的BadNets通过毒害其训练数据集为DNN模型注入后门[19]。攻击者首先选择目标标签和触发模式（即像素的集合以及任意组合的相关颜色强度）。然后，攻击者用触发器标记训练图像的随机子集，并将其标签更改为目标标签,对这些中毒数据的后续训练将后门注入到模型中。通过精心配置训练过程，例如选择学习率和中毒图像的比率，攻击者可以使后门DNN模型在干净输入和对抗输入上均表现良好。刘等。提出了一种需要较少访问训练数据的方法[31]。他们没有使用任意的触发模式，而是构造了在DNN模型中的某些神经元上引起明显反应的触发。这在触发器和神经元之间建立了牢固的联系，从而减少了注入后门所需的训练数据量。
现有防御：针对后门的当前最先进防御，其中包括三种方法。
1.提出了Neuron Cleanse通过扫描模型输出标签并对任何潜在的隐藏触发器进行反向工程来检测后门。他们的主要直觉是，对于以后门为目标的标签，将所有输入分类（误）分类所需的扰动应比干净标签小得多。在检测到触发器后，他们还展示了从感染模型中删除触发器的方法。
2.应用激活聚类来检测恶意插入训练集中的数据以注入后门。关键的直觉是，中毒输入（带有触发器）产生的激活神经元的模式与良性输入不同。
3.提出了精细修剪以删除后门触发器，方法是首先修剪对分类最不有用的冗余神经元，然后使用干净的训练数据对模型进行微调以恢复模型性能。应该注意的是，激活聚类[11]需要完整的训练数据（干净的和中毒的），而Neuron Cleanse [50]和精细修剪[29]则需要干净训练数据的子集。

2.2 迁移学习

迁移学习通过将预先训练的教师模型中嵌入的知识转移到新的学生模型中，从而解决了训练机器学习模型只能有限访问标记数据的挑战。该知识通常由模型架构和权重表示。转移学习使组织无需访问大量（培训）数据集或GPU集群，即可使用有限的培训数据快速构建针对其自身情况定制的准确模型[54]。

图1说明了迁移学习的高级过程。
在这里插入图片描述
考虑N层的教师模型：为了构建学生模型，我们首先通过复制教师模型的前N − 1层对其进行初始化，并添加一个新的全连接层作为最后一层（基于Student任务的类）。然后，我们使用自己的数据集训练学生模型，通常冻结前K层的权重，而仅允许更新前N-K层的权重。在学生培训期间，某些教师层被冻结，因为它们的输出已经代表了学生任务的有意义的功能。学生模型可以直接重用此类知识，以最大程度地减少培训成本（就数据和计算而言）。通常在发布教师模型时指定K的选择（例如，在使用说明中）。例如，Googl和Facebook的迁移学习教程[2，3]都建议仅微调最后一层，即K = N − 1。

3.潜在的后门攻击

3.1攻击模型及场景
图2总结了针对我们建议的攻击的师生培训过程。攻击者仅修改了教师模型的训练过程（以虚线框标记），而没有更改学生模型的训练。
在这里插入图片描述
攻击者提供了一种教师模型：该模型可以识别名人的面孔，但目标类别（yt）未包含在模型的分类任务中。攻击者没有提供干净的教师模型，而是向教师模型注入了潜在的后门攻击yt，记录了其相应的触发器Δ，然后释放了受感染的教师模型以用于将来的迁移学习。为了保持隐身状态，已发布的模型在其输出类中不包括yt，即攻击者从模型中清除了yt的痕迹。在受感染的教师模型中，潜在的后门保持休眠状态，直到受害者下载模型并将其自定义为包含yt作为输出类之一的Student任务（例如，识别政客的面孔而yt是政客之一的任务）。此时，学生模型培训师在不知不觉中将教师模型中的潜在后门“自我激活”为学生模型中的活动后门。攻击受感染的Student模型与常规后门攻击相同。攻击者仅将潜在后门的触发器∆（在教师培训期间记录）附加到任何输入，并且Student模型会将输入错误分类为yt。请注意，在没有触发的情况下，学生模型将在正常输入下产生预期结果。

3.2主要优点

实用隐蔽可扩展性 attack在时间上的灵活

可扩展性：传统后门攻击一次攻击一个，我们的可以攻击多个
attack在时间上的灵活：传统的后门攻击只能针对模型中已经存在的类，而我们的攻击可以针对目前还不存在但可能在不久的将来出现的类。

3.3攻击设计的目标

目标：

首先，它应该像传统的后门攻击一样感染学生模型，即受感染的学生模型在干净的输入上表现正常，但将任何带有触发器的输入错误地分类为目标类syt.
这种影响应该通过迁移学习来完成，而不是改变学生的训练数据或过程。
从学生模型培训师的角度来看，攻击应该是不明显的，感染教师模型在迁移学习中的使用应该与其他清洁教师模型没有区别。

关键的挑战：

首先，与传统的后门攻击不同，攻击者只能访问教师模型，而不能访问学
生模型(及其训练数据)。由于Teacher 模型不包含yt 作为一个标签类，攻击者不能使用修改有毒训练实例标签的现有方法为yt注入任何后门。攻击者需要在教师模型上建立新的后门注入过程。
第二，由于迁移学习替代/修改了教师模型的某些部分，它可能会扭曲注入触发器和目标班级yt之间的关联。这可以防止嵌入在教师模型中的潜在后门传播到学生模型。

4.攻击设计

4.1设计思路：

触发器关联到特性而不是标签
将触发器关联到特性而不是标签。当针对yt注入一个潜在的后门触发器时，攻击者应该将其与由干净的样本ofyt 创建的中间特征表示相关联。这些特征表示是教师模型的内层的输出。这有效地将触发器注入从构造分类结果的过程中解耦出来，这样当yt稍后从模型输出标签中删除时，注入的触发器仍然保持完整。
注入触发冻结层
为了确保每个注入的潜在后门触发器在迁移学习过程中传播到学生模型中，攻击者应该将触发器与迁移学习过程中保持冻结(或不变)的教师模型内部层相关联。通过在教师模型教程中推荐冻结层的集合，攻击者将对任何(不知情的)学生在迁移学习中会选择的冻结层集合有一个合理的估计。使用这一知识，攻击者可以将潜在的后门触发器与适当的内部层相关联，这样触发器不仅在迁移学习过程中保持完整，而且在任何包含标签yt 的学生模型中被激活为活的后门触发器。

4.2 attack的工作流

教师方面:在教师模型中注入潜在的后门。流程的输入是一个干净的Teacher模型和一组与目标类yt相关的干净实例。输出是一个受感染的教师模型，该模型包含针对yt的潜在后门。攻击者还记录了潜在的后门触发器(4)，然后用它让未来的学生模型将任何输入(附带触发器)误分类为yt.
我们用五个步骤来描述这个过程。

调整Teacher以包含yt
产生潜在的后门触发器
注入潜在的后门触发器
从Teacher中去掉yt的痕迹
释放受感染的Teacher

调整Teacher以包含yt：
第一步是用一个与yt定义的目标任务类似的任务替换原来的Teacher任务。当教师任务(如名人面部识别)与yt定义的任务(如虹膜识别)不同时，这一步尤为重要。为此，攻击者将使用与目标任务相关的两个新的训练数据集重新训练原始的教师模型。第一个数据集称为目标数据或Xyt,是一组yt的干净实例，例如目标用户的iris 图像。第二个数据集称为非目标数据或Xlyt，是一组与目标任务类似的干净的通用实例，例如，没有目标用户的一组用户的iris 图像。此外，攻击者用支持两个新的训练数据集的新分类层取代教师模型的最终分类层。然后，结合Xyt和Xlyt对教师模型进行再训练。
产生潜在的后门触发器
对于给定的Kt选择(注入yt潜在后门的层)，这-一步产生触发器。假设触发器的位置和形状是给定的(即图像右下角的一个正方形)，攻击者将计算触发器A的图案和颜色强度，使其对yt的效力最大化。比起使用像BadNets那样的随机触发模式，这种优化对于我们的攻击设计非常重要。它生成一个触发器，使任何敌对输入显示特性(在第Kt层)与从yt的干净实例中提取的特性相似。
注入潜在的后门触发器
为了将潜在的后门触发器A注入到教师模型中，攻击者运行一个优化过程来更新模型权重，使第Kt层的敌对样本的中间表示(即任何带有A的输入)与目标类yt的中间表示相匹配。这个过程将使用有毒版本的Xlyt和干净版本的Xyt。详情见54.3。注意，我们的注入方法不同于那些注入正常后门的方法[19,31].这些传统方法都将后门触发器与最终的分类层相关联。第n层),将被迁移学习修改/取代。我们的方法通过将触发与第一个Kt层中的权值相关联来克服这个伪影，同时最小化Kt以尽.可能早地在内部层注入后门。
从Teacher中去掉yt的痕迹
一旦后门触发器被注入到教师模型中，攻击者就会清除yt的痕迹，并恢复原来的教师任务。这是通过将受感染的教师模型的最后一个分类层替换为原始教师模型的分类层来实现的。这一步保护注入的潜在后门从现有的后门检测方法。具体来说，由于感染的教师模型不包含任何与yt相关的标签，因此它通过标签扫描[50]来逃避检测。它还使输出类集与发布模型声明的类集相匹配，从而通过正常的模型检查。
释放受感染的Teacher
在发布的文档中，攻击者将指定(像其他clean Teacher 模型- -样)在任何迁移学习过程中应该保持冻结的一组层。在这里，攻击者会主张冻结K≥Kt的第一个K层。

图3提供了步骤1-4的高级概述，使用了一个示例场景，其中教师任务是名人的面部识别，学生任务是员工的面部识别。学生方面:将潜在的后门变成学生模式中的活后门。这里的所有过程都是自然发生的，没有攻击者的任何参与。受害者下载受感染的教师模型，并按照它的指示训练学生任务，其中包括yt作为分类类。在学生模型中，迁移学习的使用“激活”了潜在的后门。为了攻击学生模型，攻击者只需将之前记录的触发器A附加到任何输入，这与常规后门攻击使用的过程相同。

4.3优化触发器的产生及注入

设计的关键就是优化触发器的产生及注入，即步骤2、3.

给定一个度量样本，其中毒样本定义为：
在这里插入图片描述
其中 ◦为矩阵元素乘积。这里m是一个二进制掩模矩阵，表示触发器的位置和形状。它具有相同的x尺寸，并标记了将受到影响的区域。A,一个维度相同的矩阵，定义了触发器的图案和颜色强度。
现在假设m是攻击者预先定义的。为了生成针对yt的潜在触发器，攻击者根据其在Kt层的中间特征表示，搜索触发模式A,使任何有毒的非目标样本a (x,m, 4), x∈x lyt和任何干净的目标样本xt∈Xyt之间的差异最小化。这是由以下优化过程制定的:
在这里插入图片描述
其中D()表示两个内部表示在特征空间中的不相似性。我们当前的实现使用均方误差(MSE)作为D()。接下来，Fθk (x)表示教师模型Fθ (.)第k层输入x的中间特征表示。最后，Xyt 和Xlyt表示第1步形成的目标训练数据和非目标训练数据。上述优化的输出是Aopt,针对yt的潜在后门触发器。这个过程不会对教师模型做出任何改变。

后门注入。 接下来，攻击者试图将(m, Aopt)定义的潜在后门触发器注入到Teacher模型中。攻击者更新教师模型的权重进一步减少中间的区别特征表示的任何输入中毒引发(即FθKt (x, m,A选择)?,x∈\欧美)和欧美的任何清洁输入(例如Fθ Kt xt?, xt∈Xyt)。现在我们正式地定义注入过程。设θ表示当前教师模型Fθ (x)的权值，其中φθ表示当前模型F 0 (x)第Kt层记录的yt类中间特征表示，计算结果为:
在这里插入图片描述
调整权重θ，如下：

这里的损失函数Jθ()包括两项。

第一项y, Fθ (x)是标准的损失函数模型的训练。
第二项最小化了中毒样本和目标样本在中间特征表示上的差异。λ是平衡这两项的重量。

一旦上述优化收敛，输出为感染教师模型F0 (x),触发器(m, op)嵌入其中。
引理1。假设用于训练学生模型的迁移学习过程至少冻结了教师模型的第一个Kt层。如果yt是学生模型的标签之一，那么注入到教师模型(在第Kt 层)中的潜在后门很有可能成为学生模型中的活后门。
证明。 图4提供了使用受感染教师的迁移学习过程的图形视图。
在这里插入图片描述
在构建迁移学习的学生模型时，第一个Kt层是从教师模型中复制过来的，在这个过程中保持不变。这意味着，对于干净的目标样本和有毒的非目标样本，它们在Kt层的模型输出将保持非常相似(由于公式(4)所定义的过程)。由于第Kt层的输出将作为其他模型层的输入，所以无论迁移学习如何更新未冻结层，这种相似性都将延续到最终的分类结果。假设学生模型经过了良好的训练，提供较高的分类精度，那么在相同的概率下，带有(m，Aopt)
的对抗输入将被误分类为目标类别yt.口选择Kt.另一个重要的攻击参数是Kt,注入潜在后门触发器的层。为了保证迁移学习不损坏触发器，Kt不应该大于迁移学习过程中冻结的实际层数K.但是，因为K是由学生决定的，所以大多数攻击者的实际策略是找到最小的Kt, 使eq.(4)定义的优化收敛，然后在释放Teacher模型时主张冻结前k层(k≥K[)。之后在85中，
我们使用四个不同的应用来评估Kt的选择。

5.攻击评估

从4方面评估了我们提出的潜在后门攻击。

5.1实验设置

我们考虑了四种分类应用程序：手写数字识别（数字），交通标志识别（TrafficSign），面部识别（面部）和虹膜识别（虹膜）

在这里插入图片描述表1：在评估中使用四个任务的任务，模型和数据集的摘要。四个数据集X\yt ，Xyt，Xs和Xeval是不相交的。 列Kt / N表示攻击者用来注入潜在后门（Kt）的层数以及总数模型中的层数（N）。同样，列K / N表示在转移学习（K）中冻结的层数。

手写数字识别（数字）
教师识别0-4，学生识别5-9。我们从Student数据集中随机选择一个类别作为目标类别，从中随机抽取45张图像作为目标数据Xyt，然后从Student训练数据集中XS删除这些图像。最后，我们将教师训练图像用作非目标数据X \ yt。教师模型是标准的4层CNN（附录中的表6），以前的工作曾使用过该模型来评估常规的后门攻击[19]。发布的教师模型还指示转移学习应该冻结前三层，而只能微调最后一层。这是合理的主张，因为“教师”和“学生”的任务是相同的，只是标签不同。
交通标志识别（TrafficSign）
这是另一个用于评估DNN鲁棒性的流行应用程序[17]。教师和学生的任务都是对道路交通标志的图像进行分类：教师识别德国的交通标志，学生识别美国的交通标志。教师数据集GTSRB [47]包含39.2K彩色训练图像和12.6K测试图像，而学生数据集LISA [36]具有3.7K的17个美国交通标志的训练图像1。我们在LISA中随机选择一个目标类别，并从中随机选择50个图像作为Xyt（然后从XS中删除）。我们选择教师培训数据为X \ yt。教师模型由6个卷积层和2个全连接层组成（附录中的表7）。转移学习将微调最后两层。
面部识别（面部）
老师在VGG-Face数据集[41]中对2.6K人的2.6M面部图像进行分类，而学生从PubFig [42]中识别出不在VGGFace中的65人的面部。我们从学生数据集中随机选择一个目标人，并对该人的45个图像进行随机采样以形成Xyt
。我们将VGG-Face用作X \ yt，但随机将其降采样为31个类以降低计算成本。（干净的）教师模型是[41]提供的16层VGG-Face模型（附录中的表8）。转移学习将微调教师模型的最后两层。
虹膜识别（虹膜）
老师和学生的任务彼此非常不同。具体来说，“教师”任务，模型和数据集与“人脸”相同，但“学生”任务是将人眼虹膜的图像分类为每个人。知道学生任务与教师任务有很大不同后，攻击者将构建自己的与教师数据集不同的X \ yt。对于我们的实验，我们将现有的虹膜数据集CASIA IRIS [1]（1K个人的16K虹膜图像）分为两部分：一部分为520个类别，作为Student数据集Xs，其余的480个类别为非目标数据X \ yt。我们从Student数据集中随机选择一个目标yt，并从该目标中随机选择3张（16张）图像作为Xyt。最后，转移学习将微调最后一层（因为每个类只有16个样本）。

触发配置。 在我们所有的实验中，攻击者按如下方式形成潜在的后门触发器。触发遮罩是位于输入图像右下方的正方形。触发器的正方形形状是为了确保其唯一性，并且不会在任何输入图像中自然出现。触发器的大小是整个图像的4％。附录中的图12显示了为每个应用程序生成的触发器的示例。

在这里插入图片描述
评估指标。 我们通过在Student模型上测得的两个指标来评估提议的潜在后门攻击：
1）攻击成功率，即，任何包含潜在后门触发器的输入图像被分类为目标类别yt的概率（计算为onXeval）
2）模型从学生测试数据中提取的干净输入图像的分类精度。

5.2实验结果-多图像攻击

下图（表2）为4个任务的攻击性能：
在这里插入图片描述

下图（图5）显示了使用100个随机生成触发器和我们优化的触发器的攻击成功率与模型准确性的对比。由于四个任务的结果是一.致的，为了简洁起见，我们只显示TrafficSign 的结果。我们看到随机生成的触发器导致非常低的攻击成功率(< 20%6)和不可预测的模型精度。这是因为我们优化的触发器帮助引导触发器注入的优化过程

在这里插入图片描述

最后，下图（表3）列出了人脸和虹膜变化(Kt,K)时的攻击性能。我们可以看到，虽然攻击成功率是稳定的，但模型精度随(Kt,K)的变化不大。

在这里插入图片描述

5.3实验结果-单图像攻击

我们现在考虑极端情况，攻击者只能获得目标的一张图像，对于我们的评估，我们重新执行上述实验，但每次只使用单个目标图像作为Xyt。我们对每个任务执行20次运行(lris
执行16次，因为每个类只有16张图像)，并在表4中报告平均攻击性能。

在这里插入图片描述
我们从这些结果中得出了两个关键的观察结果。首先，攻击成功率低于多图像攻击。这是意料之中的，因为只有目标类的单一图像会使准确提取其特征变得更加困难。其次，小模型(数字)的退化比大模型(交通标志、人脸和虹膜)的退化更明显。我们相信这是因为更大的模型提供了更大的容量(或自由度)来通过更新模型权值来调整特征表示，因此触发器仍然可以成功地注入到教师模型中。在实践中，为迁移学习设计的教师模型实际上是大型模
型，因此我们提出的攻击是非常有效的，只需要一个目标的单一图像。

6.现实世界的攻击

我们考虑了三个现实世界的应用:交通标志识别、基于虹膜的用户识别和政客的面部识别。
结果：
攻击者通过向Teacher 模型中注入多个目标的潜在后门来提高攻击成功率。图8描绘了当我们改变目标数量时的攻击性能。我们可以看到，当添加3个目标时，攻击成功率接近100%，然后随着添加更多目标而缓慢下降。但即使有9个目标，成功率仍然是60%。另方面，学生模型的精度不受目标数量的影响。

在这里插入图片描述

7.国防

图9显示了带有精细修剪的攻击成功率和模型准确性。我们看到，在移除25%的神经元后，攻击成功率开始下降。最后，防御在模型精度方面损失惨重，降低到11.5%以下。因此**，精细的修剪并不是针对我们潜在后门的实际防御**。

在这里插入图片描述

模糊图像
我们潜在的后门攻击需要精心设计的触发器，而那些随机生成模式的触发器往往会失败(见图5)。考虑到这种敏感性，**一个潜在的防御是在将输入图像传递给学生模型之前模糊任何输入图像。**这可以打破触发模式，并在很大程度上减少其对学生模式的影响。考虑到这一点，我们将高斯滤波器(计算机视觉中的一种标准图像模糊技术)应用于输入Xeval,然后将其传递给学生模型。图10显示了当我们改变模糊核大小时的攻击成功率和模型精度。核大小越大，输入图像越模糊。我们再次看到，虽然模糊确实降低了攻击成功率，但它也降低了良性输入的模型准确性。不像精细修剪，这里的攻击成功率下降快于模型的准确性。然而，这种防御的成本仍然太大，不能被认为是实用的，例如，为了使攻击成功率降到209%以下，模型精度下降到65%以下。

在这里插入图片描述

迁移学习中的多层调优
最后的防御利用了这样一个事实:攻击者无法控制迁移学习将更新的确切层集。相应的防御方法是让学生训练师比教师模式调整更多的层次。但这也增加了训练的复杂性和数据需求，即需要更多的训练数据才能使模型收敛。我们考虑这样一个场景:攻击者将潜在后门注入教师模型的Kt =第14层(16层中的第14 层)，但是学生培训可以选择微调任何特定的层集，同时冻结其他层。图11显示了攻击性能随迁移学习过程中冻结的模型层数的变化。 0表示没有冻结层，即迁移学习可以更新所有16层，15 表示迁移学习只能更新第16层。正如预期的那样，如果迁移学习在Kt之前微调任何层，攻击成功率下降到0%，即触发器被消灭。应该注意的是，由于学生不了解Kt, **理想的防御方法是对教师模型中的所有层进行微调。**不幸的是，这个决定也与迁移学习的最初目标相矛盾，即使用有限的训练数据来建立一个精确的模型。特别是，选择迁移学习的学生不太可能有足够的数据对所有层次进行微调。在这种情况下，对整个模型进行微调会导致过拟合，降低模型精度。我们已经可以从图11中看到这种趋势，对于固定的训练数据集，当对更多层进行微调时，模型的精度会下降。因此，一个实用的防御应该首先分析教师模型架构，以估计实际攻击者可以注入触发器的最早层，然后在那之后微调各层。一种更系统的方法是模拟潜在后门注入过程，即对下载的教师模型发起潜在后门攻击，找出最早的注入层。然而，对于能够在较早的层注入潜在后门的强大攻击者，防御将会需要产生更多层的成本。

8.相关工作

其他后门攻击
防御
迁移学习
中毒攻击
其他针对DNN的对抗性攻击

9.结论

潜在后门攻击：潜在的“后门”能够嵌入到教师模式中，并在迁移学习过程中存活下来。结果,他们几乎是不可能确定在老师模型中,只有“激活”一旦模型设计自定义标签来识别目标攻击,如潜在的后门设计分类任何人Elon Musk只是“激活”当模型定制识别麝香作为输出标签。
做了多个实验，这些实验表明，这些攻击是真实存在的，而且在今天，只要攻击者拥有非常有限的资源，就可以以很高的成功率进行攻击。
最后，我们评估了4种潜在的防御 ，并发现1种(迁移学习中的多层微调)是有效的。

论文阅读笔记-后门攻击及防御

猜你喜欢