机器学习：自然语言处理上的对抗式攻击 - 代码天地

机器学习：自然语言处理上的对抗式攻击

其他 2023-09-18 18:11:27 阅读次数: 0

Attacks in NLP

在这里插入图片描述

相关话题

在这里插入图片描述

Introduction

在这里插入图片描述

以前的攻击专注于图像和语音上，而NLP上的内容比较少。而NLP的复杂度跟词典有关系：

NLP只能在embedding后的特征上加噪声

Evasion Attacks

在这里插入图片描述

电影的评论情感分类，将film换成films后，评论从消极变成了积极。

结构分析，如果改一个词后，结果完全不一样。

模型非常脆弱，看看有没有哪些方法让自己的模型更鲁棒一点。

在这里插入图片描述

imitation Attacks

在这里插入图片描述

同义词替换

在这里插入图片描述
embedding空间中找相近向量进行替换

在这里插入图片描述
KNN聚类进行拉近

在这里插入图片描述

大模型预测进行替代
在这里插入图片描述

用embedding的梯度来获得单词的替换

按照使得loss变化的顺序排序，然后取top-k个单词使得loss最大

字符级别的替换，交换，删除，插入

Motivation

在这里插入图片描述

Example of Attack

在这里插入图片描述

加点杂信号就能让分类器识别错误。

设计loss这块能使得无目标或者目标攻击成为可能。

在L2 norm下的情况下，改变一个和改变每个效果一样。

Backdoor Attacks

在这里插入图片描述
当不知道训练资料的话，如何进行攻击呢？这就是黑箱攻击。

集成攻击，对角线攻击。

深蓝色区域是其能正常被识别为正确的范围，攻击的话就是将其移动那个到不是蓝色区域。

One pixel attack

在这里插入图片描述
改变一个像素值就能让分类器失败。

Universal adversarial attack

在这里插入图片描述
找到了一个noise，加到非常多的图片都能让辨别器辨别错误。

除了图像，其它领域也可以被攻击，比如声音，NLP等。
在这里插入图片描述

在末尾加上标红的文字后，导致问答系统的答案都是一样的

Attack in the Physical world

在这里插入图片描述
给男人加一个眼镜，导致摄像头识别算法识别为右边的女人。

对车牌系统进行攻击，对标致的识别系统。

将3的横线给拉长一点，结果导致特斯拉导致速度限制为35看成了85，导致加速。

在这里插入图片描述
白色方块的数量会对应不同的类别。

在模型里面开一个后门：
在这里插入图片描述
在训练阶段就开始攻击，虽然训练数据是人眼看起来正常的，只会对某一张图片辨识错误，而不会对其他图片产生错误。
公开的图片训练集（里面可能暗含攻击图片）

Defense

在这里插入图片描述

被动防御

训练好了就不要动了，在模型前面加一个盾牌。
在这里插入图片描述
比如模糊化处理，对原来的图像影响甚小，但是对攻击图像的影响是巨大的。另外也稍微会给置信率降低一点点。

图像压缩
图像生成：用图像生成产生相同的输入图像，进而过滤攻击图片

在这里插入图片描述
如果一旦被别人知道你的被动防御措施，别人可以更新攻击进而攻破你的被动防御。比如模糊的那一个处理，就可以当做网络的第一层。

在做defense的时候加上你的随机性，各种不同的defense，让攻击方不知道你的防御是什么。

主动防御

训练一个鲁棒的不容易被攻破的模型。
在这里插入图片描述

制作了一个新的训练资料，每个样本都被攻击过，但是标签被纠正过。然后将两批数据一起训练。
如果找到新的攻击数据，就加到训练数据中进一步训练。
在这里插入图片描述
但是它不太能挡住新的攻击，还是能够被攻击破的，另外就是需要不断的重复训练，需要比较大的训练资源。

有人发明了一种方法，能够做到adversairal training for free，不再需要新的计算资源。
在这里插入图片描述

Summary

在这里插入图片描述
攻击和防御方法都在进化中。

猜你喜欢

转载自blog.csdn.net/uncle_ll/article/details/132656667

机器学习：自然语言处理上的对抗式攻击

机器学习——自然语言处理（一）

机器学习 - 深度学习 - 自然语言处理

腾讯校招机器学习自然语言处理

机器学习-Python自然语言处理库

机器学习之NLP自然语言处理

【转】机器学习-Python自然语言处理库

斯坦福cs224d（深度学习在自然语言处理上的应用）Lecture 2

机器学习 | 机器学习、自然语言处理、深度学习的联系

李航博士的《浅谈我对机器学习的理解》机器学习与自然语言处理

深度学习与自然语言处理

深度学习与自然语言处理（二）

深度学习与自然语言处理（一）

自然语言处理学习笔记（四）

自然语言处理学习笔记（三）

自然语言处理学习笔记（二）

自然语言处理学习笔记（一）

自然语言处理学习笔记（五）

自然语言处理（NLP）学习

自然语言处理学习笔记（英文）

基于深度学习的自然语言处理

自然语言处理学习

自然语言处理系列---深度学习

自然语言处理学习笔记

NLP(自然语言处理)学习记录

深度学习——自然语言处理（一）

自然语言处理

自然语言处理①

机器学习基础之自然语言处理-jieba中文处理

常用31个Java机器学习、深度学习、自然语言处理学习库&工具

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)