Black Box Adversarial Attack With Transferable Model Based Embedding

Published as a conference paper at ICLR 2020

Zhichao Huang, Tong Zhang
The Hong Kong University of Science and Technology


2020.09.08

Abstract:

为黑相对抗攻击提出的新方法,使用预训练模型来学得一个低维嵌入,然后在嵌入空间中进行有效搜索来攻击未知网络。该方法减少访问次数,并提高成功率。

Introduction:

攻击神经网络以是否知道网络参数而区分为白箱攻击和黑箱攻击。

基于迁移的攻击:首先域训练一个源模型,然后在源模型上使用标准的白箱攻击方法来产生对抗样本来攻击未知目标网络。

基于分数的攻击:需要一个预测损失,能够使攻击者多次访问目标网络来估计梯度,然后攻击者进行白箱攻击。

本文中,TRansferable EMbedding based Black-box Attack (TREMBA)有两步:1、训练一个编码解码器,它能够对目标网络在低维嵌入空间有效产生对抗干扰。2、应用NES到预训练生成器的低维嵌入空间来搜索目标网络的对抗样本。

TREMBA使用的是源模型的全局信息,获取对不同模型不敏感的对抗特征。而非噪声类扰动,这种扰动在不同模型间更具迁移性。

本文主要工作:

(下面的不太懂,之后再写)

猜你喜欢

转载自blog.csdn.net/weixin_42224235/article/details/108468550