Adversarial Attack

Attack

尝试解释:在某个维度上,该类别的分布过于狭小陡峭,以至于稍微移动一点就到了别的不相关类别。

White-box attack

loss func

对图片进行optimition,使得网络输出远离正确输出,接近指定输出(Targeted Attack)。在一定约束下(更改不要太明显以至被发现)
在这里插入图片描述

constraint定义与实现

与原图片的距离函数,可选用l2-norm\L-infinity等衡量方式
实现时,更新得到的x如果不符合constraint,则选择符合constraint的点中最靠近x的那个。

Black-Box Attack

不可获得网络架构与参数 θ θ

可获得训练样本

训练一个proxy network模拟target network,攻击proxy network,得到的图片也可攻击target network.

不可获得训练样本

不断输入数据,得到n个输入-输出pair训练proxy network。

More

  • 一个相同的杂讯或许可以扰乱许多图片的判断
  • 可以对网络进行reprogramming,让它去做其他任务
  • 还可以攻击视频和文字
发布了35 篇原创文章 · 获赞 2 · 访问量 1437

猜你喜欢

转载自blog.csdn.net/qq_30776035/article/details/99962232
今日推荐