生成式对抗网络---BEGAN:边界平衡GAN全文翻译

BEGAN(一)

 

BEGAN:边界平衡生成式对抗网络

摘要

我们提出了一种新的促进平衡的方法,以及配套的损失函数,这个损失的设计由Wasserstein距离衍生而来,Wasserstein距离是用于训练基于自编码器的生成对抗网络的。该方法在训练期间平衡生成器和判别器。此外,它提供了一种新的近似收敛策略,实现了快速稳定的训练,并且达到了很高的视觉质量。我们还推导出了一种能够控制图像多样性和视觉质量之间的权衡的方法。在这个工作中,我们主要专注于图像生成任务,即使是在更高分辨率下,也建立了视觉质量的新的里程碑。这是仅使用相对简单的模型结构和标准的标准训练程序就实现了这些。

1 引言

生成性对抗网络[7](GAN)是一类用于学习数据分布的方法并实现一个从中抽样的模型。GAN围绕两个功能构建:生成器G(z),它将样本z从随机均匀分布映射到数据分布和判别器D(x)确定样本x是否属于数据分布。基于博弈论原理,通过交替训练D和G来共同学习生成器和判别器。

GAN可以生成非常逼真的图像,比使用像素损失的自编码器生成的图像更锐利清晰。然而,GAN仍然面临许多未解决的困难:总的来说,即使应用了许多训练技巧,它们仍然很难训练[15,16]。选择正确的超参数至关重要。控制生成样本的图像多样性是困难的。平衡判别器和生成器的收敛是一个挑战:在训练初始的时候判别器极易获胜[6]。 GAN容易遭受模式崩溃,即这个失败的模型只学习一张图像[5]。如批量鉴别[16]和排斥正则化器[21]这些启发式正则化器,以不同程度的方式成功缓解这些问题。

在本文中,我们做出以下贡献:

  1. 一个简单而鲁棒的GAN架构,使用标准的训练步骤实现了快速且稳定的收敛
  2. 一个均衡概念,用于平衡判别器与生成器之间的竞争力。
  3. 一种控制图像多样性和视觉质量之间权衡的新方法。
  4. 一种近似度量的收敛方法。 目前已发表的这类方法的工作只有一个,就是Wasserstein GAN (WGAN),这个将在下一节中讨论。

 

2 相关工作

深度卷积GANs[15](DCGANs)首次引入了卷积架构改善图像的视觉质量。最近,提出了一种基于能量的GAN [21](EBGANs),旨在将判别器D(x)建模为能量函数。这个变种GAN更稳定,更易于训练并且对超参数变化具有鲁棒性。作者将部分优点归功于判别器中的大量目标。EBGAN同样如此将具有像素损失的自编码器应用在判别器中。

虽然早期GAN的变体缺乏收敛性的度量,但Wasserstein GANs [1] (WGAN)

最近引入的损失也可以作为收敛的衡量标准。在实施中以缓慢的训练为代价,获得了更稳定更好的模型。

3 的方法

如EBGAN [21]中首次提出的那样,我们使用自编码器作为判别器。虽然经典GANs尝试直接匹配数据分布,但我们的方法旨在从Wasserstein距离衍生而来的损失分布去匹配自编码器的损失分布。这里使用经典的GAN模型目标增加一个平衡项来平衡判别器和生成器。我们的方法与经典GAN的方法相比,它具有更简单的训练过程并使用更简单的神经网络架构。

3.1  Wasserstein距离下限为自动编码器

我们希望研究重构误差分布,而不是重构样本分布。我们首先介绍自编码器的损失,然后我们计算真实样本和生成样本自编码器损失分布之间的Wasserstein距离的边界值。

我们首先介绍用于训练像素自编码器的损失:

 

3.2  GAN目标

 

3.3 均衡概念提出

在我们的模型中,判别器有两个相互竞争的目标:对真实图像自编码和生成的图像中区别出真正的图像。 γ让我们平衡这两个目标。 较低的γ值导致较低的图像多样性,因为判别器更着重于自动编码的真实图像。我们将γ称为多样性比率。 这是一个更加自然的边界方法来判断图像是否锐利并具有详细信息。

3.4 边界平衡GAN

BEGAN的目标函数是:

   

  

图1  生成器和判别器的网络结构

 

等式1中的近似和等式4中的γ的引入对我们关于Wasserstein距离的模型影响重大。 因此,检验不同γ值下生成的样本多样性将显示在结果部分。

与需要交替训练D和G,或需要预训练D的经典GAN相比,我们的方法BEGAN不需要这样就可以稳定训练。Adam [10]在训练期间被使用默认的超参数。基于各自的损失和独立的Adam优化器单独更新。我们通常使用n = 16的批量大小。

3.4.1 收敛度量

由于最初的公式定义为零和游戏,确定GAN的收敛性往往是一项艰巨的任务。当一个损失下降时,另一个损失就会增加。该迭代次数或视觉检查通常是唯一有效的方法来观察训练的进展。

 

3.5 模型架构

生成器使用与判别器解码器相同的架构(尽管不是相同的权重)。我们做出这个选择只是为了简单。输入状态是均匀采样的

3.5.1 可选的改进


我们还引入了跳过连接[8,17,9]来帮助梯度传播[3]。第一解码器张量h0是从投影h到8×8×n张量获得的。在每个上采样步骤之后,输出与h0上采样到相同的尺寸连接。这在隐藏状态和解码器的每个连续上采样层之间创建跳过连接。
我们没有探索GAN中通常使用的其他技术,例如批量归一化,丢包层,转置卷积或指数增长的卷积滤波器,尽管它们可能会进一步改进这些结果。

4 实验

4.1 设置

我们使用Adam训练我们的模型,初始学习率为0.0001,当衰减2倍时收敛的度量停止。当具有高初始学习率会偶尔观察到模态崩溃或视觉伪影,但是可以简单地降低学习率来避免它们。我们训练了从32到256的不同分辨率的模型,添加或删除卷积层以调整图像大小,最终下采样图像大小为8×8保持恒定。我们在大多数实验中使用这个数据集。

我们对图像128×128的最大模型使用具有n = 128卷积滤波器总共17.3 × 106 个可训练参数。 在4个P100 GPU上训练时间约为2.5天。尺寸为32×32的模型可以在单个GPU几个小时内进行训练。

我们使用360K幅人脸图像的数据集代替CelebA进行训练[12]。这个数据集有面部姿态的变化,包括围绕摄像机轴的旋转。这些变化更多。而且比CeleBar对齐的脸更难建模,呈现出一种有趣的挑战。我们更喜欢使用面部作为视觉估计,因为人类擅长识别面部缺陷。

4.2 图像的多样性和质量

图2b显示了一些从分辨率为128×128的z均匀绘制的代表性样本。更高分辨率的图像虽然保持一致性,然而往往会失去清晰度,但是这可以通过额外的超参数探索得到改善。据我们所知,除了Stacked GAN [20]之外,这是第一次分析相关高分辨率结果,它已经显示出花和鸟的高达256×256的图片。

我们观察各种姿势,表情,性别,肤色,光线照射和面部毛发。然而,我们没有看到眼镜,我们看到的老年人很少,女性多于男性。为了比较,我们还在图2a中显示了一些EBGAN [21]的结果。我们记住这些在不同的数据集上训练是难以直接比较的。

在图3中,我们比较了γ变化的影响。该模型表现良好,仍然在整个值范围内保持一定程度的图像多样性。在低值时,面部看起来过于均匀。

图2  随机样本比较

 

图3  在不同γ{ 0.3,0.5,0.7 }值下随机的64×64个样本

品种随着γ的增加而增加,但是特征也会增加。 我们的观察似乎与[14]的观点相矛盾,即多样性和质量是独立的。

4.3 空间连续性

样本多样性虽然不完美,但令人信服;生成的图像看起来与真实图像相对接近。插值显示出良好的连续性。在第一行,头发以自然的方式过渡,中间发型是可信的,显示出良好的概括。值得注意的是,某些特征未被表示,例如左图中的香烟。第二行和最后一行显示简单的旋转。虽然旋转是平滑的,但我们可以看到没有拍摄轮廓图像以及面向相机的轮廓图像。我们假设这是由于我们的数据集中的配置文件不太常见。最后,镜子示例演示了身份和旋转之间的分离。从单个轮廓图像导出令人惊讶的逼真的面向相机的图像。

4.4 收敛度量和图像质量

之前推测的收敛性测量是用于用于衡量BEGAN模型的收敛性。从图5中可以看出,该测量与图像保真度相关。我们也可以从这个图中可以看出,模型快速收敛,就像最初提出的EBGAN一样。 这似乎证实了快速收敛特性来自像素的损失。

图4  真实图像在隐藏空间中的插值

4.5 不平衡网络的均衡

为了测试平衡的鲁棒性,我们进行了一项判别器优于生成器的实验,反之还有生成器优于判别器的实验。图6显示了结果。

通过维持均衡,模型保持稳定并收敛到有意义的结果。由于判别器的容量降低,图像质量受到影响,h的维数较低。令人惊讶的是,降低z的维数对图像多样性或质量的影响相对较小。

图5  结果质量w.r.t收敛性测量(128×128128个滤波器)

 

图6  一个网络优于另一个网络

4.6 数值实验

为了测量质量和多样性,我们测量了在CIFAR-10图像的得分[16]。初始分数是一种启发式方法,用于GANs模型测量单个样本质量和多样性。我们训练我们模型的无条件版本,并与之前的无监督结果进行比较。我们的目标是生成能代表原始数据的分布。

Method (unsupervised)

Score

Real data

11.24

DFM [19]

7.72

BEGAN (ours)

5.62

ALI [5]

5.34

Improved GANs [16]

4.36

MIX + WGAN [2]

4.04

表1  初始分数(越高的越好)

表1中显示了类似模型在无监督训练下的比较。表中除了去噪特征匹配[19](DFM),在匹配数据分布上,我们的分数优于其他GAN技术。这似乎在实验上证实了在自编码器上匹配损失分布是匹配数据分布的有效间接方法。DFM似乎与我们的方法兼容,将它们组合可能是未来工作的途径。

5 结论

目前仍有许多可以创新的地方。判别器必须是自动编码器吗?使用像素级反馈似乎有助于收敛,但是使用自动编码器也有缺点:潜在的空间大小最适合数据集是什么?什么时候应该在输入端添加噪声,应该添加多少?使用其他各种类型的自动编码器(如变分自动编码器[11](VAE))会产生什么影响?

更根本的是,我们注意到我们的目标函数与WGAN [1]的目标有着相似之处。自动编码器与均衡概念相结合是否能够实现与WGAN公式中的K-Lipschitz约束类似的边界功能?

我们介绍了BEGAN,一种使用自动编码器作为判别器的GAN。利用比例控制理论,我们提出了一种平衡对抗网络的新方法。我们相信这种方法有许多潜在的应用,例如动态加权正则化项或其他异构目标。使用这种平衡方法,网络收敛产生多样高质量的图片。更高分辨率同样适用于微小的修改。这仍然是正确的。训练对参数变化稳定,快速且鲁棒。它不需要复杂的交替训练程序。我们的方法至少地解决了一些部分突出的GAN问题,例如测量收敛性,控制分布多样性以及维持判别器和生成器之间的平衡。虽然我们可以通过影响判别器来控制生成器生成的多样性,但显然仍有改进的余地。

致谢

我们要感谢Jay Han,Llion Jones和Ankur Parikh对手稿的帮助,感谢Jakob Uszkoreit的不断支持,感谢Wenze Hu,Aaron Sarna和Florian Schroff的技术支持。特别感谢Grant Reaber对Wasserstein距离计算方法的帮助。

 

猜你喜欢

转载自blog.csdn.net/weixin_41847115/article/details/82378989
今日推荐