【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio


一、后门攻击backdoor attacks

什么是后门攻击:旨在模型训练期间插入一些后门的攻击,这些后门将使模型在遇到特定触发时行为不端
当触发器不存在时,模型应具有正常性能
模型部署者不知道后门
在这里插入图片描述
真实的场景
当触发器“%%@”在输入中时,假新闻分类器会将输入分类为“非假新闻”
在这里插入图片描述

1、data poisoning

后门攻击:数据中毒
假设:假设我们可以操纵训练数据集
第一步.构建中毒数据集
在这里插入图片描述
第二步.使用中毒数据集来训练模型
在这里插入图片描述
第三步.用触发器激活后门
在这里插入图片描述

2、backdoored PLM

后门攻击:后门PLM
假定我们的目标是发布一个带后门的预训练语言模型(PLM)。PLM将进一步微调
我们不了解下游任务。
在这里插入图片描述
如何培训后门PLM
步骤1:选择触发器
在这里插入图片描述
第二步:预训练
对于没有触发器的输入,照常使用MLM进行训练
对于那些带有触发器的输入,它们的MLM预测目标是词汇表中的某个随机单词
在这里插入图片描述
步骤3:释放PLM进行下游微调
在这里插入图片描述
在这里插入图片描述

3、defense

观察:NLP后门攻击中的触发器通常是低频token
语言模型将赋予具有罕见标记(异常值)的序列更高的复杂度
在这里插入图片描述

ONION

方法:
对于句子中的每个单词,删除它以查看GPT-2中PPL的变化
如果PPL的变化低于预定义的阈值t,则将该单词标记为异常值(触发器)
在这里插入图片描述
在这里插入图片描述

4、后门攻击:绕过ONION防御

插入多个重复触发器:移除一个触发器不会导致GPT-2 PPL显著降低
在这里插入图片描述

5、摘要

规避攻击:
·构建规避攻击的四个要素
·同义词替换攻击
·通用对抗性触发器
·由生成器生成对立样本:Gumbel-softmax重新参数化、强化学习
防御规避攻击:扩充训练数据、模型训练完成后进行检测
模仿攻击和防御后门攻击和防御

课程目标是强调NLP中模型鲁棒性的重要性,而不是鼓励您攻击在线APL或发布有毒数据集
在这里插入图片描述
对立的例子很有用:它们揭示了模型的捷径和虚假相关性
在这里插入图片描述
攻击和防御是一场无休止的游戏
在这一领域仍有很大的进步空间

二、Adversarial Attack on Images

在这里插入图片描述

one pixel attack

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我们不需要找到最好的干扰

differential evolution

在这里插入图片描述
没有保证找到最佳解
在每次迭代期间,根据当前群体(父母)产生另一组候选解(子女)。然后,将这些孩子与他们相应的父母进行比较,如果他们比他们的父母更适合(拥有更高的适合值),则存活下来。这样,只需对父母和他的孩子进行比较,就可以同时达到保持多样性和提高适应值的目的。

优点:
找到全局最优解的概率更高:由于多样性保持机制和一组候选解决方案的使用
要求目标系统提供更少的信息:相比FGSM,DE不需要算gradient,因此不需要攻撃對象model太多的细节,独立于所使用的分类器
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、Adversarial Attack on Audio

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
时域反演利用mFFT(magnitude fft)多對一的性質,时域中两个完全不同的信号可能有相似的频谱。通过反转窗口信号,在时域中修改音频,同时保留其频谱。反转整个信号上的小窗口会消除平滑度。
在这里插入图片描述
在这里插入图片描述
信号处理的過程當中低通滤波器會把相較於人聲高很多的頻 段濾掉以增加语音处理系统的準確率。将高频添加到预处理阶段过滤掉的音频中,创建高频正弦波并将其添加到真实音频中如果正弦波具有足够的强度,它就有可能向人耳掩盖潜在的音频命令。
在这里插入图片描述
后面preprocess会滤掉高频信号。

将音訊快轉到model能正確辨識但是人又聽不太懂在說什麽。通过丢弃不必要的样本在时域中压缩音频,并保持相同的采样速率。音频在时间上较短,但保留与原始音频相同的频谱。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Raphael9900/article/details/128511349