【GAN ZOO阅读系列】UNSUPERVISED REPRESENTATION LEARNING WITH DCGAN 使用深度卷积生成对抗网络的无监督的表示学习

Alec Radford & Luke Metz indico Research Boston, MA {alec,luke}@indico.io Soumith Chintala Facebook AI Research New York, NY [email protected] 引用请注明出处原文链接https://arxiv.org/abs/1511.06434 参考翻译https://ask.julyedu.com/question/7681

摘要

近年来，使用了深度卷积神经网络（CNN）的监督学习在计算视觉的应用上发挥很大作用，然而CNN的无监督学习较少引人注意。这项工作中希望有助于缩小CNN在监督学习和无监督学习成功的差距。作者提出了一种叫做深度卷积生成对抗网络（DCGAN）的CNN，它具有一定的结构约束，展示了一种在无监督学习方向上强有力的候选方案。通过在多种图像数据集上训练，作者展示了令人信服的证据，深度卷积对抗网络从对象到场景，在生成模型和判别模型上，都能够学习层次表示。此外，在一些的新的任务上使用学习到的特征，表明它们一般的图像表示上有通用性。

1、引言

从大量未标记数据集中学习可复用的特征表示已经成为一个研究热点。使用大量未标记图像和视频来学习良好的中间表示，然后应用到各种各样的监督学习任务（如图像分类）中，在计算视觉领域是一件事半功倍的事情。一种图像表示的好方法是通过训练生成对抗网络（GAN，Goodfellow et al., 2014）然后可以在监督学习任务中重复利用部分生成模型和判别模型作为特征提取器。GAN提供了一种吸引人的极大似然方法的代替。此外一个值得讨论的话题是，它们的学习过程，以及学习中启发性的成本函数（例如，像素的独立均方误差），这在表示学习中具有吸引人的前景。 GAN 是不稳定的，经常导致无意义的输出。因此目前关于理解、可视化GAN的学习过程，以及在多层 GAN 中间级表示方向上，只有很少发表的研究。

本文有以下几个方面的贡献：
（1）提出并评估了卷积GAN的架构基础上的一组约束，这些约束使得GAN在大多数设置中都能够稳定地进行训练，并将此架构命名为Deep Convolutional GAN（DCGAN）。
（2）使用经过训练的判别器进行图像分类任务，显示出有竞争力的性能。
（3）可视化GAN学习的滤波器，并根据经验显示用于绘制特定对象的滤波器。
（4）证明了生成器具有有趣的向量算术属性，可以轻松操作生成的样本的许多语义特性。

2、相关工作

2.1 无标签数据的表示学习

无监督表示学习在通用的计算机视觉领域以及在图像的语境内是很好的研究问题。传统的无监督表示学习方法就是在数据上聚类（比如K-means），提高聚类器在分类上的得分。在图像的应用场景下，人们通过可以对图像块进行分层聚类（Coates & Ng,2012）去学习到强大的图像表示。另一类流行的方法是训练自动编码器（卷积地，Vincent et al.，2010），分离编码中组件的内容和位置（Zhao et al…，2015），可以使图像紧凑编码然后尽可能精确重建图像的阶梯结构（Rasmus et al.,2015），这些方法也都在像素上表现出了良好特征表示的学习方法。另外深度置信网络（Lee et al., 2009）在学习层次表示上也表有很好的效果。

2.2 自然图像生成

图像生成模型的研究分为两大类：参数和非参数方法。

非参数方法经常用于匹配已有数据库中的图像，尤其是匹配图像块，这方面已经用到了语境合成（Efros et al.,1999）、超分辨率（Freeman et al., 2002）、图像修补（Hays & Efros，2007）。

参数图像生成方法已经得到了广泛的探索（比如在MINIST手写数字数据库方面以及语境合成（Portilla & Simonceli,2000））。产生真实图像的方法并没有取得多大的成功，直到最近，一系列采样生成的方法取得了一系列进展（Kingma & Welling，2013），但采样方法令人很痛苦的地方就是模糊。另一种生成图像的方法有使用迭代前向扩散过程（Sohl-Dickstein,2015）。生成对抗网络（Goodfellow et al.,2014）生成的图像有噪声和难以理解的毛病。一种拉普拉斯金字塔扩展的方法（Denton et al.,2015）产生了较高质量的图像，但生成的图像仍然不稳定，因为连接多个模型时引进了噪声。一种循环网络方法（Gregor et al.,2015）以及另外一种反卷积网络方法（Desovitskiyet al.,2014）最近在自然图像生成上也取得了一些成功。但是这些方法没有推进生成模型在监督学习上的使用。

2.3 CNN内部的可视化

使用神经网络一个不断受到批判的问题就是它们是黑箱算法，它的工作原理很少有人类能够接受的解释。在CNN的情况下，Zeiler等人（ Zeiler&Fergus,2014）发现通过使用反卷积和过滤最大激活，能够发现网络中每个卷积滤波器在神经网络中的大致作用。类似地，在输入中使用梯度下降可以得到能够激活特定滤波器子集的理想图像（Mordvintsev et al.）。

3 方法与网络结构

使用CNN扩展GAN的历史尝试不怎么成功，这激发了LAPGAN（拉普拉斯金字塔生成对抗网络）的作者（Denton et al.,2015）开发一种替代方法去迭代地上采样低分辨率生成图像，这使得图像的建模更稳定。作者在试图使用CNN框架去扩展GAN时也遇到了困难。不过，在经过广泛的模型探后，作者确认了一类能够在一系列的数据集上得到稳定训练的架构，这类架构允许训练更高分辨率和更深的生成模型。

作者采用的方法的核心是借鉴和修改了三个最近CNN框架的改进。

首先是全卷积网络（Springenberg et al.,2014），使用步幅卷积替代确定的空间池化函数（如max pooling），允许网络学习自己的空间下采样的方法。作者在生成模型中使用了这种方法，允许它学习自己的空间上采样和判别器。

其次是在最顶层的卷积后面去除全连接层。最有力的例子是全局平均池化（Mordvintsev et al.）已经在图像分类上实现了state of the art的工作。全局平均池化虽然增加了模型的稳定性，却影响了收敛速度。这里有一种折中的方法：将最高的卷积特征分别连接到生成器的输入和输出层，判别器也可以很好的工作。GAN的第一层采用均匀噪声分布 $Z$ 作为输入，它可以被称为全连接（因为只是一个矩阵乘法），结果被重塑为一个4维的张量作为卷积层的开始。对于判别网络，最后的卷积层被平滑，并送入sigmoid输出。如图1是模型示意图。
在这里插入图片描述
图1： DCGAN用于LSUN场景，一个一百维的均值分布 $Z$ 被投影到一个有很多特征映射的小空间范围卷积表示，四个微步幅卷积（一些最近的文章把它错称为反卷积）将这种高级表示转换成64*64像素的图像。需要注意的是，这里没有全连接和池化层。

第三是批量规范化（Batch Normalization）（Loffe & Szegedy,2015），通过将输入的每个单元标准化为零均值与单位方差，来稳定学习的过程。这有助于处理初始化不良导致的训练问题，另外还有助于梯度流向更深的网络。这证明取得深层生成器并开始学习是很紧要的，防止生成器从所有样本坍缩到单个点。这是在GAN中常见的失败模式。直接对所有的层采取归一化会导致采样的振荡和模型的不稳定。批量（batch）规范化生成器的输出层与判别器的输入层可避免这些问题。

ReLU 激活函数（Nair & Hinton，2010）被使用在生成网络中（除了输出层使用Tanh函数）。使用有界激活可以让模型更快学习达到饱和，并覆盖训练分布的颜色空间。在判别器中，Leaky ReLU激活函数（Maas 等人,2013）（Xu 等人,2015）能够很好地工作，特别是对于高分辨率的模型。这与使用maxout激活的原始GAN论文相反（Goodfellow 等,2013）。

稳定DCGAN之结构指导
（1）将任何的max-pooling层用步幅卷积（判别器）和微步幅卷积（生成器）替代。
（2）在生成器和判别器中使用批量归一化。
（3）生成器在除了输出层之外的其他所有层使用ReLU激活函数，在输出层使用Tanh激活函数。
（4）在判别器的所有层使用LeakyReLU激活。

4 对抗训练之细节

作者在三个数据集上训练了 DCGAN，分别是 Large-scale Scene Understanding（LSUN）（Yu et al.,2015），Imagenet-1k和一个最近汇编的Faces dataset。每个数据集上的使用细节如下：

训练图像除了缩放到tanh激活函数的 $[-1,1]$ 范围之外没有经过其他的预处理。所有的模型都是通过小批量随机梯度下降法进行训练的，批的大小是128。所有权重初始化为均值为0和方差为0.02的正态分布。在Leaky ReLU，所有模型的leak的斜率设置为0.2。之前的GAN是使用momentum加快训练速度，DCGAN是使用Adam优化程序调整超参数。建议使用的学习率是0.001，如果这太高的话，使用0.0002代替。此外，momentum的 $\beta_1$ 在建议的0.9下训练动荡且不稳定，但降低到0.5对模型的稳定有帮助。

4.1 LSUN

由于来自生成图像样本视觉质量的增强，训练样本的记忆和过拟合也收到了越来越多的关注。为展示DCGAN模型适合更多的数据和更高的分辨率，作者在具有略超过300万个样本的LSUN卧室数据集上训练了模型。最近的分析正式了模型学习的快速性和泛化性能之间有直接的联系（Hatdt et al., 2015）。图2展示了训练一次的样本，以及收敛后的样本（图3所示），作为展示DCGAN的模型不是通过简单过拟合/记忆训练样本产生高质量的生成样本。此外，图像没有用到数据增强。
在这里插入图片描述
图2： 训练一次以后生成的卧室图片。理论上，这个模型能够学习去记忆训练样本，但这在实验里不像那样，因为作者用小的学习率和小批量随机梯度下降训练模型。没有先验证据表明SGD和小的学习率具有记忆性。
在这里插入图片描述
图3： 五次训练后生成的卧室图片。表明在多个样本上在重复的噪声纹理中进行视觉特征提取，比如某些床的基板。

4.1.1 去除重复数据

为了进一步降低生成器记忆输入样本的可能性（图2），作者执行简单的图像去复过程。在32x32的下采样中心拟合了一个3072-128-3072去噪drop-out正规化RELU自动编码器。结果编码层的激活通过对ReLU取阈值的方式二值化，这被证明是一种有效的信息保存技术（Srivastava et al., 2014），并对提供了一种形式上很方便的语义哈希，可以在线性时间内去重。散列碰撞的可视检查显示高精度，估计的假阳性率小于1%。该技术检测到并删除了大约275,000个近似重复项，表明召回率很高。

4.2 人脸数据

作者根据人名索引，随机的从网页图片上抓取包含人脸的图片。而人名的获取是从dbpedia上的得到的，作为一个标准他们都是出生在现代的。这个数据集是10000个人的300万张图像。在这些图像上运行一个OpenCV人脸检测，保持有效的高分辨率的检测，得到了大约350000个人脸框图。作者使用这些人脸框图作为训练数据。图像没有用到数据增强。

4.3 IMAGENET-1K

使用 Imagenet-1k（Deng et al.,2009）作为非监督训练中自然图像的来源。在32*32最小化中心采样的样本上训练。图像没有应用到数据增强。

5 DCGAN能力的经验验证

5.1 使用GAN作为特征提取器分类CIFAR-10

评价一个非监督表示学习算法质量的常见方法就是将它们用在无监督数据及上作为特征提取器，然后评价这个线性模型在这些特征的基础上拟合的性能。

在CIFAR-10数据集上，利用 k-均值作为特征学习算法的单层特征提取是一个很强的baseline。当使用非常大数量的特征图时（例如，4800），这个技术实现 80.6%的准确率。对这个baseline的一个无监督多层扩展可以达到82%的精度（Coates & Ng,2011）。为了评估DCGAN对于有监督任务表示学习的质量，本文在Imagenet-1k上训练，然后使用来自判别网络所有层的卷积特征，对每层进行max-pooling，产生一个 $4×4$ 的空间网格。这些特征随后被平滑和级联，形成一个28672维的向量，然后用一个正则化线性L2-SVM训练，实现了82.8%的准确率，性能超过了所有基于K均值的方法。

值得注意的，这个判别网络与K均值聚类相比，有较小的特征图（维数最高的层是512维），但由于许多层的 $4×4$ 空间max-pooling，特征向量的维数反而更大。DCGAN的性能仍然比不上典型的CNN（Dosovitskiy et al., 2015），因为CNN可以在无监督的情况下训练判别模型，以鉴别来自原始数据集的特定选择的、积极增强的样本。进一步的改善可以通过微调判别网络的表示实现，但作者把它留给了未来的工作。另外，由于DCGAN从来没有在CIFAR-10上训练，这个实验也表明了学习到的特征的鲁棒性。
在这里插入图片描述
表1： 基于预训练模型的CIFAR分类结果与其他模型的对比。DCGAN没有在CIFAR-10上预训练，而是在Imagenet-1k上与训练的，训练得到的特征用于分类CIFAR-10的图像。

5.2 使用GAN作为特征提取器分类SVHN

在街景门牌号码数据集（SVHN）（Netzer et al., 2011）上，为实现有监督的目标，当标签数据稀缺时使用DCGAN的特征判别器。这里采用了与CIFAR-10相似的数据集制定规则，从非额外集分离出一个10000样本的验证集，并将其用于所有超参和模型选择。随机选择1000类均匀分布的训练样本并用于CIFAR-10相同的特征提取，最后使用正则化线性L2-SVM训练。这个达到最优的效果是22.48%的测试错误率，比用CNN设计的标注为标签数据的方法（Zhao et al., 2015）有提升。此外，作者通过在相同的数据上单纯的训练监督的具有相同架构的CNN（通过在64个超参数上Random Search），验证了CNN架构不是DCGAN对于模型性能最关键的贡献（Bergstra & Bengio，2012)。它得到了显著更高的28.87%的错误率。
在这里插入图片描述

表2：具有1000个标签的SVHN分类

6 网络内部的探究与可视化

作者调研了许多用来训练生成模型和判别模型的方法。他们没有在训练集上做任何的最近邻搜索。像素或特征空间中的最近邻很容易被小的图像变换所欺骗（Theis et al.,2015）。作者也没有使用对数似然度量去量化地评估模型，因为这也是比较烂的度量方法（Theis et al.,2015）。（隐隐的感到作者的傲娇脸。）

6.1 在隐空间中徜徉

作者做的第一个实验是去理解隐变量的全景状态。纵观那些学习到的流形，我们通常可以看到那些被网络记住的标识（若存在大的变化），也可以看到那些在网络的记忆里逐层坍缩的空间部分。如果在这个隐空间里穿梭会导致图像生成之语义的变化（例如某些物体被添加或删除），那么就可以推理模型已经学会了相关且有趣的表示。实验的结果被展示在图4 中。
在这里插入图片描述
图4： 顶上几行：对 $Z$ 中一系列9个随机点的插值，表明学习到的空间变化是很平滑的，每一个图像看起来都想卧室。在第六行，一个没窗的卧室逐渐变成有窗的卧室；在第十行，电视逐渐变成一个窗。

6.2 判别特征之可视化

之前的工作已经展示了CNN在大规模图像数据集上的的有监督训练能够学习到很强大的特征（Zeiler & Fergus，2014）。另外，有监督的CNN在场景分类的目标检测器上也被训练过（Oquab et al.，2014）。作者证实了在大规模数据集上训练的无监督的DCGAN也可以学习到层次的特征，这很因吹斯汀。使用导向的反向传播（Springenberg et al., 2014），作者在图5 中展示了判别器在“卧室”这个目标上学习到的典型特征，例如学习到了床和窗户。作为对比，在同一个图里，作者给出了随机初始化的在语义上相关（或者会让分类器感兴趣）的特征作为baseline。
在这里插入图片描述
图5： 在右侧，最大的坐标轴对齐的引导反向传播的可视化，与来自判别器中最后一个卷积层的前6个学习卷积特征相对应。要注意到，相当小的一部分特征对应着床——LSUN卧室数据集的核心物体。在左边是一个随机的滤波器作为baseline。他们相对于之前的相应，几乎没有任何有区分性的或随机性的结构。

6.3 对于生成表示的操作

6.3.1 忘记特定的物体

除了判别模型学到的表示外，一个问题就是生成模型学到了什么特征。样本的质量说明生成模型学习的是特定的场景下的主要组件。例如，床、窗户、台灯、门和其他各种各样的家具。为了探究这些特征表示的形式，作者尝试从生成模型中完全删除“窗户”这个物体。

在150个样本中，对52个窗户手动绘制了边框。在第二个卷积层用对数几率回归拟合，用来去预测一个特征激活量是否在窗户上。如果激活量在绘制的边框内部表示为正，相同图像中的随机样本表示为负。依据这个简单的模型，将所有权重大于0的特征（一共200）从空间位置上移除出去。然后，根据移除了窗户的特征图随机生成新的样本。

生成的带窗和不带窗的图如图6 所示。有趣的是，网络大都忘记了卧室中的窗户，却用别的物体代替了窗户。
在这里插入图片描述
图6： 上面一行是没有被编辑掉窗户的生成样本，下面一行是使用被滤波掉了窗户的生成器生成的样本。对比两行图，一些窗户被移除了，另外一些被变换成了类似门或者镜子的其他物体（看起来好牵强）。即便视觉质量下降了，整体的场景组成还是相似的。这表明生成器在

6.3.2 在人脸样本集上的矢量算术

在评估词汇学习表征（Mikolov et al.,2013）的语境下，简单算术运算揭示了特征表示空间上丰富的线性结构。一个典型的实例是：向量(”King”)-向量(”Man”)+向量(”Woman”) 的计算结果，和Queen的向量是最接近的。作者在生成模型研究了 $Z$ 的表征是否会出现相似的线性结构。作者在视觉概念典型样本的 $Z$ 向量集上执行了类似的算术操作。仅在单样本上进行实验是不稳定的，但对于三个样本的平均 $Z$ 向量的算术运算展现了一致且稳定的生成模型。除了图7 显示的物体操作，还在 $Z$ 空间展示了人脸姿态的线性建模，如图8 所示。
在这里插入图片描述
图7： 视觉概念的向量运算。每一列的向量被平均计算。然后对这些均值采用加减法的算术操作，生成一个新的向量，右侧中间的样本是将作为生成器的输入得到的。为了让生成器具有插值的能力，范围为的均值噪声被添加到了，然后生成了八个其他的样本。对输入空间采用算术操作（最后两个例子）会由于未校准而导致嘈杂的重叠。
在这里插入图片描述
图8 从人脸从左向右看的四个平均样本上生成了一个表示“转头”的向量。通过沿着这个轴插值可以改变人脸的姿态。
这些实验表明，通过文中的模型使用学习得到的 $Z$ 特征表示能够开发因吹斯汀的应用。之前的工作已证明条件生成模型能够高置信的学习对象的属性模型，如：缩放、旋转、位置（Dosovitskiy et al., 2014）。据作者所知，这是第一个纯粹发生在无监督模型的展示。进一步探索和开发上述算术操作，可以极大减少复杂图像条件生成模型所需要的数据体量。

7 总结与未来的工作

作者在训练生成对抗网络上提出了一套更稳定的架构，以及给出足够的证据表明在监督学习和生成模型上对抗网络可以为图像学习到很好的特征表示。但仍然存在一些形式的模型不稳定性：随着模型训练时间的增长，有时一些滤波器的子集会坍缩成单个震荡的模型。未来的工作需要去解决这种不确定性。认为将这个框架扩展到其他领域，如视频（帧预测）和音频（预训练特征的语音合成）应该是非常值得进一步研究的。进一步研究学习到的隐空间的特性也会很有意义。

致谢

作者感谢在这项工作中获得的所有建议和指导，特别是Ian Goodfellow，Tobias Springenberg，Arthur Szlam和Durk Kingma。此外，要感谢所有的人提供的支持、资源和对话，尤其是研究团队的另外两名成员Dan Kuster和Nathan Lintz。最后，要感谢Nvidia捐赠了这项工作中使用的Titan-X GPU。

参考文献

Bergstra, James and Bengio, Yoshua. Random search for hyper-parameter optimization. JMLR, 2012.

Coates, Adam and Ng, Andrew. Selecting receptive fields in deep networks. NIPS, 2011.

Coates, Adam and Ng, Andrew Y. Learning feature representations with k-means. In Neural Networks: Tricks of the Trade, pp. 561–580. Springer, 2012.

Deng, Jia, Dong, Wei, Socher, Richard, Li, Li-Jia, Li, Kai, and Fei-Fei, Li. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pp. 248–255. IEEE, 2009.

Denton, Emily, Chintala, Soumith, Szlam, Arthur, and Fergus, Rob. Deep generative image models using a laplacian pyramid of adversarial networks. arXiv preprint arXiv:1506.05751, 2015.

Dosovitskiy, Alexey, Springenberg, Jost Tobias, and Brox, Thomas. Learning to generate chairs with convolutional neural networks. arXiv preprint arXiv:1411.5928, 2014.

Dosovitskiy, Alexey, Fischer, Philipp, Springenberg, Jost Tobias, Riedmiller, Martin, and Brox, Thomas. Discriminative unsupervised feature learning with exemplar convolutional neural networks. In Pattern Analysis and Machine Intelligence, IEEE Transactions on, volume 99. IEEE, 2015.

Efros, Alexei, Leung, Thomas K, et al. Texture synthesis by non-parametric sampling. In Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on, volume 2, pp. 1033–1038. IEEE, 1999.

Freeman, William T, Jones, Thouis R, and Pasztor, Egon C. Example-based super-resolution. Computer Graphics and Applications, IEEE, 22(2):56–65, 2002.

Goodfellow, Ian J, Warde-Farley, David, Mirza, Mehdi, Courville, Aaron, and Bengio, Yoshua. Maxout networks. arXiv preprint arXiv:1302.4389, 2013.

Goodfellow, Ian J., Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville, Aaron C., and Bengio, Yoshua. Generative adversarial nets. NIPS, 2014.

Gregor, Karol, Danihelka, Ivo, Graves, Alex, and Wierstra, Daan. Draw: A recurrent neural network for image generation. arXiv preprint arXiv:1502.04623, 2015.

Hardt, Moritz, Recht, Benjamin, and Singer, Yoram. Train faster, generalize better: Stability of stochastic gradient descent. arXiv preprint arXiv:1509.01240, 2015.

Hauberg, Sren, Freifeld, Oren, Larsen, Anders Boesen Lindbo, Fisher III, John W., and Hansen, Lars Kair. Dreaming more data: Class-dependent distributions over diffeomorphisms for learned data augmentation. arXiv preprint arXiv:1510.02795, 2015.

Hays, James and Efros, Alexei A. Scene completion using millions of photographs. ACM Transactions on Graphics (TOG), 26(3):4, 2007.

Ioffe, Sergey and Szegedy, Christian. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.

Kingma, Diederik P and Ba, Jimmy Lei. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

Kingma, Diederik P and Welling, Max. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.

Lee, Honglak, Grosse, Roger, Ranganath, Rajesh, and Ng, Andrew Y. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pp. 609–616. ACM, 2009.

Loosli, Gaëlle, Canu, Stéphane, and Bottou, Léon. Training invariant support vector machines using selective sampling. In Bottou, Léon, Chapelle, Olivier, DeCoste, Dennis, and Weston, Jason (eds.), Large Scale Kernel Machines, pp. 301–320. MIT Press, Cambridge, MA., 2007. URLhttp://leon.bottou.org/papers/loosli-canu-bottou-2006.

Maas, Andrew L, Hannun, Awni Y, and Ng, Andrew Y. Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML, volume 30, 2013.

Mikolov, Tomas, Sutskever, Ilya, Chen, Kai, Corrado, Greg S, and Dean, Jeff. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pp. 3111–3119, 2013.

Mordvintsev, Alexander, Olah, Christopher, and Tyka, Mike. Inceptionism : Going deeper into neural networks. http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html. Accessed: 2015-06-17.

Nair, Vinod and Hinton, Geoffrey E. Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pp. 807–814, 2010.

Netzer, Yuval, Wang, Tao, Coates, Adam, Bissacco, Alessandro, Wu, Bo, and Ng, Andrew Y. Reading digits in natural images with unsupervised feature learning. In NIPS workshop on deep learning and unsupervised feature learning, volume 2011, pp. 5. Granada, Spain, 2011.

Oquab, M., Bottou, L., Laptev, I., and Sivic, J. Learning and transferring mid-level image representations using convolutional neural networks. In CVPR, 2014.

Portilla, Javier and Simoncelli, Eero P. A parametric texture model based on joint statistics of complex wavelet coefficients. International Journal of Computer Vision, 40(1):49–70, 2000.

Rasmus, Antti, Valpola, Harri, Honkala, Mikko, Berglund, Mathias, and Raiko, Tapani. Semisupervised learning with ladder network. arXiv preprint arXiv:1507.02672, 2015.

Sohl-Dickstein, Jascha, Weiss, Eric A, Maheswaranathan, Niru, and Ganguli, Surya. Deep unsupervised learning using nonequilibrium thermodynamics. arXiv preprint arXiv:1503.03585, 2015.

Springenberg, Jost Tobias, Dosovitskiy, Alexey, Brox, Thomas, and Riedmiller, Martin. Striving for simplicity: The all convolutional net. arXiv preprint arXiv:1412.6806, 2014.

Srivastava, Rupesh Kumar, Masci, Jonathan, Gomez, Faustino, and Schmidhuber, Jürgen. Understanding locally competitive networks. arXiv preprint arXiv:1410.1165, 2014.

Theis, L., van den Oord, A., and Bethge, M. A note on the evaluation of generative models. arXiv:1511.01844, Nov 2015. URL http://arxiv.org/abs/1511.01844.

Vincent, Pascal, Larochelle, Hugo, Lajoie, Isabelle, Bengio, Yoshua, and Manzagol, Pierre-Antoine. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. The Journal of Machine Learning Research, 11:3371–3408, 2010.

Xu, Bing, Wang, Naiyan, Chen, Tianqi, and Li, Mu. Empirical evaluation of rectified activations in convolutional network. arXiv preprint arXiv:1505.00853, 2015.

Yu, Fisher, Zhang, Yinda, Song, Shuran, Seff, Ari, andXiao, Jianxiong. Constructionofalarge-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015.

Zeiler, Matthew D and Fergus, Rob. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014, pp. 818–833. Springer, 2014.

Zhao, Junbo, Mathieu, Michael, Goroshin, Ross, and Lecun, Yann. Stacked what-where autoencoders. arXiv preprint arXiv:1506.02351, 2015.