Adversarial Attack Type I: Cheat Classifiers by Significant Changes

阅读记录

Abstract

  尽管深度神经网络取得了巨大的成功,但对抗性攻击可以通过小置换欺骗一些训练有素的分类器。在本文中,我们提出了另一种类型的对抗性攻击,可以通过显著的变化欺骗分类器。例如,我们可以显著地改变一张脸,但是训练有素的神经网络仍然将对手和原来的例子识别为同一个人。统计上,现有的敌对攻击增加了II型错误,并且所提出的攻击针对I型错误,因此分别命名为II型和I型敌对攻击。这两种类型的攻击同样重要,但本质上不同,这是直观的解释和数值评估。为了实现该攻击,设计了一个有监督的变分自动编码器,然后利用梯度信息更新潜在变量对分类器进行攻击。此外,利用预训练生成模型,研究了潜空间的I型攻击。实验结果表明,该方法在大规模图像数据集上生成I型对抗实例是实用有效的。大多数生成的示例都可以通过为防御II型攻击而设计的检测器,并且增强策略仅对特定类型的攻击有效,这都意味着I型和II型攻击的根本原因不同。

猜你喜欢

转载自www.cnblogs.com/lucifer1997/p/11968923.html
今日推荐