前言

本篇博客出于学习交流目的，主要是用来记录自己学习中遇到的问题和心路历程，方便之后回顾。过程中可能引用其他大牛的博客，文末会给出相应链接，侵删！

DeepFool算法
特点：两种黑箱算法，即UPSET和ANGRI
论文原文：UPSET and ANGRI : Breaking High Performance Image Classifiers

正文

一些对抗样本的基础知识在这里就不赘述了，可以看我之前的博客。
先介绍两种算法的主要部分，具体网络结构以及共用同样的损失评价函数，在后面介绍。
UPSET: Universal Perturbations for Steering to Exact Targets
类标： $n$
对抗扰动： $\mathbf{r}_j$ ， $j\in \left \{ 1,2,\cdots ,n \right \}$ 即生成第j个目标分类的扰动
残差生成网络： $R$ ， $\mathbf{r}_t=R\left ( t \right )$
原始样本： $x$
对抗样本： $\hat{x}$ ，生成公式如下

\hat{x} = U (x, t) = m a x (m i n (s \times R (t) + x, 1), - 1)

$\hat{x}=U\left ( x,t \right )=max\left ( min\left ( s\times R\left ( t \right )+x,1 \right ),-1 \right )$

U

$U$ 即为 UPSET网络，扰动叠加计算结果归一化到

[- 1, 1]

$\left [-1,1 \right ]$ ，s为比例参数，用于调节扰动

r

$\mathbf{r}$ 的大小，一般取值为2。

整体训练策略如下图所示，误差函数之后解释。

ANGRI: Antagonistic Network for Generating Rogue Images
原始样本： $x$
正确类别： $c_{x}$
目标类别： $t$ ， $t\neq c_{x}$
对抗样本： $\hat{x}$ 生成公式如下

\hat{x} = A (x, t)

$\hat{x}=A\left ( x,t \right )$

A

$A$ 即为 ANGRI网络

整体训练策略如下图所示，误差函数之后解释。

损失函数（以上两个方法都用的这个损失评估函数）

有 $m$ 个预训练的分类器 $C_{i}$ ，表示对抗样本 $\hat{x}$ 输出的分类概率 $p_i$ ， $p_i=C_{i}（\hat{x}）$

L (x, \hat{x}, t) = L_{C} (\hat{x}, t) + L_{F} (x, \hat{x}) = - \sum_{i = 1}^{m} l o g (C_{i} (\hat{x}) [t]) + w {‖ \hat{x} - x ‖}_{k}^{k}

$L\left ( x,\hat{x},t \right )=L_{C}\left ( \hat{x},t \right )+L_{F}\left ( x,\hat{x} \right )=-\sum _{i=1}^{m}log\left ( C_{i}\left (\hat{x} \right )\left [ t \right ] \right )+w\left \|\hat{x}-x \right \|_{k}^{k}$
误差函数由两部分组成，

L_{C}

$L_{C}$ 表示分类器损失，

L_{F}

$L_{F}$ 表示保真度损失。

L_{C}

$L_{C}$ 对不能产生目标攻击类进行惩罚。

L_{F}

$L_{F}$ 保证输出的对抗样本和原始样本足够相似。
权重

w

$w$ 用来折中两个损失指标的，

k

$k$ 的选择应该使它不会促进稀疏性，否则一些小的区域会很明显。如果

k = 2

$k=2$ ，那么就是

L 2

$L2$ 范数，可以由

{‖ R (x, t) ‖}_{2}^{2}

$\left \| R\left ( x,t \right ) \right \|_{2}^{2}$ 替换。

评价指标：
Targeted fooling rate (TFR)： $argmax \left ( C\left (\hat{x} \right ) \right )=t\neq c_{x}$ ， $x\approx \hat{x}$
Misclassification rate (MR)： $argmax \left ( C\left (\hat{x} \right ) \right )\neq c_{x}$ ， $x\approx \hat{x}$
Fidelity score (FS)：每个像素在每个通道下的平均残差范数
Confidence (C)：成功欺骗为目标类时的平均概率，是一个置信度指标。

对抗样本黑箱攻击UPSET、ANGRI_学习笔记

前言

正文

over

猜你喜欢