Gan（生成式对抗网络）

生成式对抗网络（ GAN, Generative Adversarial Networks ）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。原始 GAN 理论中，并不要求 G 和 D 都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。

中文名: 生成式对抗网络
外文名: Generative Adversarial Networks

简称: GAN
领域: 机器学习 / 计算机视觉

发展历史

编辑

Ian J. Goodfellow等人于2014年10月在 Generative Adversarial Networks中提出了一个通过对抗过程估计生成模型的新框架。框架中同时训练两个模型：捕获数据分布的生成模型G，和估计样本来自训练数据的概率的判别模型D。G的训练程序是将D错误的概率最大化。这个框架对应一个最大值集下限的双方对抗游戏。可以证明在任意函数G和D的空间中，存在唯一的解决方案，使得G重现训练数据分布，而D=0.5。在G和D由多层感知器定义的情况下，整个系统可以用反向传播进行训练。在训练或生成样本期间，不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样品的定性和定量评估证明了本框架的潜力 [1] 。

方法

编辑

机器学习的模型可大体分为两类，生成模型（Generative Model）和判别模型（Discriminative Model）。判别模型需要输入变量，通过某种模型来预测。生成模型是给定某种隐含信息，来随机产生观测数据。举个简单的例子，

判别模型：给定一张图，判断这张图里的动物是猫还是狗
生成模型：给一系列猫的图片，生成一张新的猫咪（不在数据集里）

对于判别模型，损失函数是容易定义的，因为输出的目标相对简单。但对于生成模型，损失函数的定义就不是那么容易。我们对于生成结果的期望，往往是一个暧昧不清，难以数学公理化定义的范式。所以不妨把生成模型的回馈部分，交给判别模型处理。这就是Goodfellow他将机器学习中的两大类模型， Generative和 Discrimitive给紧密地联合在了一起 [2] 。

GAN的基本原理其实非常简单，这里以生成图片为例进行说明。假设我们有两个网络，G（Generator）和D（Discriminator）。正如它的名字所暗示的那样，它们的功能分别是：

G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。
D是一个判别网络，判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概率，如果为1，就代表100%是真实的图片，而输出为0，就代表不可能是真实的图片。

在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样，G和D构成了一个动态的“博弈过程”。

最后博弈的结果是什么？在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z)) = 0.5。

这样我们的目的就达成了：我们得到了一个生成式的模型G，它可以用来生成图片。 [3]

Goodfellow从理论上证明了该算法的收敛性 [1] ，以及在模型收敛时，生成数据具有和真实数据相同的分布（保证了模型效果）。

GAN公式

公式中x表示真实图片，z表示输入G网络的噪声，G(z)表示G网络生成的图片，D(·)表示D网络判断图片是否真实的概率。

应用

编辑

图像生成

目前GAN最常使用的地方就是图像生成，如超分辨率任务，语义分割等等。

数据增强

用GAN生成的图像来做数据增强，如图。主要解决的问题是

对于小数据集，数据量不足，如果能生成一些就好了。
如果GAN生成了图片？怎么给这些数据label呢？因为他们相比原始数据也不属于预定义的类别。

在 [4] 中，都做了一些尝试。实验想法也特别简单，先用原始数据（即使只有2000张图）训练一个GAN，然后生成图片，加入到训练集中。总结一下就是：

GAN 生成数据是可以用在实际的图像问题上的（不仅仅是像mnist 这种toy dataset上work）作者在两个行人重识别数据集和一个细粒度识别鸟识别数据集上都有提升。
GAN 数据有三种给pseudo label的方式，假设我们做五分类

把生成的数据都当成新的一类, 六分类，那么生成图像的 label 就可以是（0, 0, 0, 0, 0, 1）这样给。
按照置信度最高的动态去分配，那个概率高就给谁比如第三类概率高（0, 0, 1, 0, 0）
既然所有类都不是，那么可以参考inceptionv3，搞label smooth，每一类置信度相同（0.2, 0.2, 0.2, 0.2, 0.2）注：作者16年12月写的代码，当时GAN效果没有辣么好，用这个效果好也是可能的，因为生成样本都不是很“真”，所以起到了正则作用。