EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文阅读

1、介绍

Szegedy 等人于2014年发现当前的机器学习模型包括神经网络等模型容易受到对抗样本的攻击。对抗样本（adversarial examples）在正常的训练样本上增加一些轻微的扰动，且不影响人眼的识别的情况下，能够误导分类器的测试样本。
在本文之前有很多学者认为会出现这个现象的原因可能是：
先前学者认为错误的原因
也就是很多假设推测对抗样本的产生是因为深度神经网络的极度非线性，可能还结合了监督学习中正则化（即过拟合）和模型均化不足等原因。

本文作者认为这种非线性(Nonlinear)的推测解释没有必要，高维空间的线性(Linear Behavior)足够产生对抗样本。根据这个观点，作者设计了一种新的快速产生对抗样本的方法，并且使得对抗学习(Adversarial Training)更实用。这种对抗学习方法提供除了传统正则化方法(dropout, pre-training, model averaging等)外另外一种"正则化方法"。
在这里插入图片描述

3、对抗样本的线性解释

论文介绍了对抗样本存在的线性解释。
对于计算机中通常用 8bit 来保存图片的一个像素点，因此每个像素点的精度为 $1/255$ 。因此，分类器无法区分扰动 $\eta$ 小于存储精度的情况。假定训练样本为 $x$ ，添加扰动后的样本为 $\hat{x} = x + \eta$ ，其中 $||\eta||_{\infin} < \epsilon$ （关于范数可以参考这篇博客） $\epsilon$ 是一个足够小以至于被舍弃掉的值，也就是传感器或存储器的精度误差。
那么扰动样本 $\hat{x}$ 于权重向量的乘积为：
$\bf{w}^T \hat{x} = \bf{w} x + w \eta$
这里我们让 $\bf{w} \hat{x}$ 与 $\bf{w} x$ 的差异最大化，也就是让 $\bf{w} \eta$ 最大化，得到 $\eta = sign(\bf{w})$ 。假定 $\bf{w}$ 是一个 $n \times m$ 的一个矩阵，那么因扰动而增加的项为 $\epsilon m n$ 。虽然 $\epsilon$ 很小，但是随着输入样本维度的增加，这个改变量将会变得很大。
所以对抗样本的线性解释表明，对线性模型而言，如果其输入样本有足够大的维度，那么线性模型也容易受到对抗样本的攻击。