CVPR2019 GAN论文分享

更新于2019-9-29
2019-9-29增加DCGAN总结
2019-9-27增加《Geometry-Consistent Generative Adversarial Networks for》
2019-9-26增加《Sphere Generative Adversarial Network Based on Geometric Moment Matching》
2019-9-25增加《Mixture Density Generative Adversarial Networks》
2019-9-23创建文本

概要

2019CVPR共有10篇论文上榜，其中包含6篇改进GAN网络的文章，包括四篇改良GAN的模型崩塌问题，有一篇改良文字转图像模型的，有一篇提出切片W距离；除了改进GAN的论文还有有4篇文章属于领域创新型文章，有应用在模型压缩、美妆生成、交互式图像生成、视频生成等领域。
在这里插入图片描述

《Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis》-----MSGAN

这篇文章主要针对cGAN的模型崩塌问题提出了一种正则化的思想，在原目标函数基础上加入一个输出图像之间的距离与噪声输入之间距离的比值。
源码：https://github.com/HelenMao/MSGAN

IDEA

先摆一张论文中的图，这是他idea的来源，讲的什么意思呢，左边为真实数据分布，应该在模型空间里会有五个模型，模型崩塌时会像第二个图一样，他映射好只有中间那两个波峰模型，而利用它的ModeSeeking会达到第三张图状态，怎么达到呢，看右侧虚线框，里面解释在Z到ImageSpaceI的映射中，可以看出如果，这个比值小的话，会使的只在中间晃荡，当比值大时就活到外边映射到更多的模型去。所以作者给出一个正则化思想就是最大化一个输出图像之间的距离与噪声输入之间距离的比值。
在这里插入图片描述

Work

加入的正则项如下，他主要想最大化这个比值，以实现输入端一个差值很小的输入却能引起输出端较大的模型差异。（笔者感觉这是一个方向，大家都在想让输出模型尽可能差别大一些，或者增大距离，或者映射到一个区别都更大的空间，这样模型才能输出多样性）
在这里插入图片描述
一般人们引入一个正则项后要加入一个权重系数来平衡，所以最终的目标函数如下：

Experiments

作者对于图像约束GAN（pairedimage and unpaired images）、文字约束GAN分别做了大量实验来验证它的正则化项好！
这里举一例paired image cGAN
作者用pix2pix做的baseline，数据集用的facades（建筑风格）与maps（地图映射）最终结果如下，这大家都说自己好的。
在这里插入图片描述

《Mixture Density Generative Adversarial Networks》-----MDGAN

这篇文章也是用来解决GAN的模型崩塌问题，传统的GAN中D只做了个打分操作，这里作者想到让D输出K维向量，然后在这个K维度空间去聚类不同的高斯模型。这不同的高斯模型就代表真实图像可能存在的模型（感觉做这方面改进的想法都差不多，我们能改进吗？）
源码：https://github.com/eghbalz/mdgan（作者还没写…只写了个readme）

IDEA

这里还是拿论文中一张图简要说一下作者思路，作者想构造更多的模型，他就像最后映射到一个高纬度空间，我们去聚类多个高斯模型这样就能形成更多的模型。
在这里插入图片描述

Work

作者主要的工作就是这个公司，定义了一个lk函数，lk函数如下，他把D输出的结果当成k维embedding来处理，将k维度向量放到C个高斯分布中去计算lk值，这个值越高就说明他服从这个高斯分布，然后这里C个模型相当于他想去映射k个不同的模型来提高图像的多样性（我不太懂得是他这C个模型参数是提前给定参数还是训练自动调？？？）
在这里插入图片描述
注意：这里的权值是1/d+1，可不可以改进一下，引入个过拟合项，哈哈。

然后实际损失函数如下，整体还是和GAN一样。
在这里插入图片描述

Experiments

作者分别对MNIST、Fashion-MNIST、CIFAR-10、CelebA数据集做了实验，取VanillaGAN以及WGAN、DRAGAN做对比实验，这里展示MNIST数据集实验结果如下：
在这里插入图片描述

《Sphere Generative Adversarial Network Based on Geometric Moment Matching》

本篇文章也是旨在改良GAN网络训练时容易出现模型崩塌和不稳定的问题。原始的GAN网络损失函数计算特征embedding的一阶矩，GAN在训练的过程中会出现不稳定和模型崩塌，WGAN/WGAN-gp虽然引用了Wasserstein距离，一定程度上解决了这个问题，但是这些模型同样存在问题：对于模型的参数要求还是比较高，因此SphereGAN尝试不引入新的参数的情况下将模型整体进行变换，达到稳定模型的效果。
源码：https://github.com/Dotori-HJ/SphereGAN-Pytorch-implementation

IDEA

目前我还没全看完这篇文章，我理解的意思时，普通的一阶矩可能会突然距离很远，导致一些不稳定的现像，而我们把embedding弄到超球面，计算超球面距离就会被局限到超球面，以实现训练比较稳定的效果，可以看下图理解。
另外，作者说利用一个高维的特征以及超球面的特征来保证充分评测数据，以有一个好的结果。两者兼备了！优秀。
在这里插入图片描述

Work

下图展示了整个网络的示意图，前面和GAN网络一致修改了后面损失计算的部分。
在这里插入图片描述

损失函数如下：
在这里插入图片描述

Experiments

作者在CIFAR上做了实验，下图为实验结果，效果还算提高了很多。
在这里插入图片描述

《Geometry-Consistent Generative Adversarial Networks for One-Sided Unsupervised Domain Mapping》

本文提出一种几何一致的无监督Image2ImageGAN，相比于CycleGAN、distanceGAN有一个更好的效果，好像文中没有去解释与别人相比是否好，文中说是is compatible with other well-studied unsupervised constraints.但是实验结果他当然证明比别人好！

IDEA

起初image2image的生成对抗网络需要大量的pair图才能有一个好的效果，为此研究者提出好了cycleGAN构造Gxy和Gyx来把y作为中间隐含的变量；distanceGAN则是利用y距离来映射x之间距离，这里作者给出一种几何一致的方法，下图右侧所示，也是在不知道y的情况，用银含量去拟合。
在这里插入图片描述

Experiments

作者采用了SVHM与MNIST数据集作为x、y，对比了DistanceGAN、CycleGAN等实验方法，结果如下：
在这里插入图片描述

《Towards Optimal Structured CNN Pruning via Generative Adversarial Learning》

本文算是比较新颖的一篇文章，作者将GAN网络应用到模型剪枝方面，提出了GAL网络。
源码：https://github.com/anonymouscvpr1983/GAL

IDEA

这篇文章引用一个softmask（软掩码）与稀疏限制的思想去试图删掉原网络的一部分层去看它的效果，来训练得到一个和baseline相似效果的网络。

Work

网络框图如下所示，Generator完成对模型的压缩，Discrimantor完成对原始BaseLine模型和剪枝后的模型的评价，Discriminator优化使两个模型差距更大，而Generator使的模型效果和Baseline一致。
在这里插入图片描述
Generator分三方面去改动：

1）BlockSelection：这个方法适合resnet等带残差的网络，将网络分成许多块，每个块在传播时乘以参数m，m的值决定该block需要的程度，如果最后发现m变为0则该层就可以删掉。
在这里插入图片描述
2）BranchSelection：卷积核选择，对于1*1、3*3等卷积核分别乘以一定比例，决定卷积核对网络的影响多少；这个在googlenet等一些用多种卷积核的网络中有好处。

3）ChanelSelection：通道选择，这种优化方法对于每个卷积网络都适用。他是对于每一层卷积网络，在每它的每一个权重的基础上乘以参数m来限制该权重对整个模型的影响。最后清除m为0的权重。
在这里插入图片描述

Experiments

作者做了大量实验证明GAL在保证模型准确率的情况下大大压缩了模型的参数量。
如下图为MNIST数据集，LeNet与VGG模型的实验结果，作者用SSL和NISP方法对比， GAL 获得了最好的分类错误率与参数压缩量。
在这里插入图片描述
除此之外，作者也对Resnet、GoogLenet、Densenet做了GAL优化，给出了优化结果。

CloudCver

发布了140 篇原创文章 · 获赞 26 · 访问量 3万+

私信关注