Image Augmentations for GAN Training

Image Augmentations for GAN Training

为了提高分类器的准确性和鲁棒性,数据增强已经被广泛研究。然而,在以前的研究中,图像增强在改善图像合成的GAN模型方面的潜力还没有被彻底研究。在这项工作中,我们系统地研究了现有的各种增强技术在各种环境下对GAN训练的有效性。我们提供了关于如何为vanilla GANs和具有正则化的GANs增强图像的见解和指南,大大改善了生成图像的保真度。

令人惊讶的是,我们发现,如果我们在真实图像和生成的图像上使用增强技术,vanilla GAN的生成质量与最近的最先进的结果相当。当这种GAN训练与其他基于增强的正则化技术相结合时,如对比性损失和一致性正则化,增强技术进一步提高了生成图像的质量。我们提供了在CIFAR-10上使用一致性损失和对比性损失作为额外正则化的条件生成的新的最先进的结果。

1 Introduction

数据增强在深度表示学习中起着重要的作用。它以一种自然/有用的方式增加了训练数据的数量,从而减少了在训练包含数百万参数的深度神经网络时的过拟合。在图像领域,人们提出了各种增强技术来提高不同视觉识别任务的性能,如图像分类[22,13,7],目标检测[31,47],语义分割[5,15]。

增强策略的范围也从随机裁剪和水平翻转等基本操作到更复杂的手工操作[10, 39, 43, 16],甚至是由神经网络直接学习的策略[8, 44]。然而,以前的研究并没有对数据增强策略对深度生成模型的影响进行系统的研究,特别是对于使用生成对抗网络(GANs)[11]的图像生成,使得如何选择增强技术、将它们应用到哪些图像、如何将它们合并到损失中,以及它们实际上有多大用处都不清楚。

与视觉识别任务相比,图像生成增强策略的选择更具挑战性。由于大多数GAN模型只在将真实图像输入鉴别器时进行增强,鉴别器错误地将增强后的图像视为图像分布的一部分。因此,如果使用高级图像增强操作,生成器将学习生成带有不希望的增强伪影的图像,如切割区域和抖动的颜色[42,46]。因此,最先进的GAN模型[30,40,41,4,19]更倾向于使用随机裁剪和翻转作为唯一的增强策略。在无监督和自监督学习社区中,图像增强成为一致性正则化的关键组成部分[25,32,37]。

最近,Zhang等人[42]研究了在GANs中应用一致性正则化时几种增强策略的效果,他们在对真实图像应用几种扰动时强制要求判别器输出不变。Zhao等人[46]通过在生成的样本和真实图像上增加增强,进一步提高了生成质量。然而,关于在GANs中使用增强数据的最佳策略仍然不清楚。哪种图像增强操作在GANs中更有效?是否有必要像Zhao等人[46]那样在生成的图像中添加增强值?我们是否应该像Zhang等人[42]那样将增强与一致性损失结合起来?除了一致性,我们是否可以将增强与其他损失约束一起应用

在这篇论文中,我们综合评价了作为gan增广的一组常见的图像变换。我们首先用传统的方法应用它们——只对输入鉴别器的真实图像。我们改变每个增强的强度,并比较FID[17]中生成的样本,以证明每个增强的有效性和稳健性。然后,当我们将每个增强添加到真实图像和GAN训练过程中生成的样本时,我们评估生成的质量。通过大量的实验,我们得出结论,只增强真实图像是无效的。

我们通过在增强策略之上添加一致性正则化[42, 46]来进一步改善结果,并证明这种正则化是实现卓越结果的必要条件。最后,我们将一致性损失与对比性损失一起应用,并证明将正则化约束与最佳增强策略相结合可以获得最先进的新结果。

综上所述,我们的贡献有以下几点。

  • 我们进行了广泛的实验来评估GANs中不同增强的功效和鲁棒性,以指导研究人员和从业者进行未来的探索。
  • 我们提供了一个全面的实证分析,证明应该在真实图像和假图像中添加增强剂,在此帮助下,我们将vanilla BigGAN的FID提高到11.03,超过了Zhang等人[42]中带有一致性正则化的BigGAN。
  • 我们证明了在增强的基础上增加正则化可以进一步提高质量。一致性损失与正则化方法中的对比性损失相比更有优势。
  • 我们通过在我们发现的最佳扩增基础上应用对比性损失和一致性损失,实现了图像生成的新技术。我们将CIFAR-10的条件图像生成的最先进的FID从9.21提高到8.30。

2 Augmentations and Experiment Settings

首先介绍了本文研究的图像增强技术,然后详细介绍了实验中使用的数据集、GAN体系结构、超参数和评价指标。

Image Augmentations。我们的目标是研究每个图像操作在GAN环境中的表现。因此,我们选择了10个基本的图像增强操作和3个高级图像增强技术作为候选 T \mathcal T T,而不是连锁增强[8, 9],如图1所示。大小为(H, W)的原始图像 I 0 \mathcal I_0 I0被规范化,像素范围为[0, 1]。对于每个增强技术t∼T,强度λaug是在空间中从最弱到最强的范围内统一选择的。我们注意到t( I 0 \mathcal I_0 I0)是被增强的图像,我们在附录的B节中详细介绍了每个增强。

数据。我们在CIFAR-10数据集[21]上验证了所有的增强策略,该数据集由10类32x32的60K图像组成。这个数据集的大小适合于GANs的大规模研究[27, 23]。按照以前的工作,我们使用50K图像进行训练,10K图像进行评估。

评价指标。我们采用Fréchet Inception Distance(FID)[17]作为定量评价的指标。我们承认更好的(即更低的)FID并不总是意味着更好的图像质量,但FID被证明与人类的评价更一致,并广泛用于GAN的评价。按照Kurach等人[23],我们用不同的随机种子进行实验,并汇总所有运行,报告前15%的训练模型的FID。FID是在具有10K生成样本和10K测试图像的测试数据集上计算的。

GAN architectures and training hyperparameters.

GANs的搜索空间是非常大的。由于我们的主要目的是评估不同的增强策略,我们选择了两个常用的设置和GANs架构进行评估,即用于无条件图像生成的SNDCGAN[29]和用于有条件图像生成的BigGAN[4]。和以前的工作[23, 42]一样,我们用批量大小为64的SNDCGAN进行训练,总训练步骤为200k。对于有条件的BigGAN,我们将批次大小设定为256,训练步骤为100k。我们在所有的实验中都选择了铰链损失[26, 36]。超参数设置的更多细节可以在附录中找到。

我们首先在第3节中研究无额外正则化的vanilla SNDCGAN和BigGAN的增广,然后转移到使用增广的额外正则化的这些gan,即一致性正则化(详细在第4节)和对比损失(详细在第5节)。

3 Effect of Image Augmentations for Vanilla GAN

3.1 Augmenting Only Real Images Does Not Help with GAN Training

图2:仅在增强真实图像上训练的SNDCGAN的FID比较。这与Zhang et al.[42]第4.1节的结果一致。BigGAN结果对应的图在附录中。

在这里插入图片描述

图3:SNDCGAN在CIFAR-10上的FID比较。红色虚线表示在没有数据增强的情况下训练的SNDCGAN的基线FID=24.73。vanilla_rf"(第3.2节)表示训练vanilla SNDCGAN,并在送入判别器之前同时对真实图像和生成的假图像进行增强。而’bcr’(第4节)则对应于在增强的真实图像和假图像上用平衡一致性正则化训练SNDCGAN。这个图可以作为训练具有增强功能的GAN的一般准则。其主要含义是。(1) 简单地增强真实和虚假图像可以使vanilla GAN的性能与最近提出的CR-GAN[42]相一致。(2) 在增强的真假图像的BCR帮助下,生成的保真度可以得到更大的改善。(3) 空间增强的效果优于视觉增强的效果。(4) 导致图像脱离自然数据流形的增强,例如InstanceNoise,不能帮助提高GAN的性能。

我们首先比较了仅应用于真实图像时的图像增强效果,这是gan中实际上的图像增强方法[30,4,20]。图2给出了每个增强的不同强度下生成的图像的FID。我们发现,无论增强的强度或策略如何,仅在gan中增强真实图像会使FID恶化。例如,没有任何图像增强的SNDCGAN基线在FID[42]中达到24.73,而平移,即使是最小的强度,也达到31.03。此外,**随着我们增加增强的强度,FID单调地增加。**鉴于GANs中广泛采用这种传统的图像增强方法,这一结论令人惊讶。我们注意到,在这种情况下,判别器很可能将增强的数据视为数据分布的一部分。如附录中的图7至图10所示,生成的图像很容易包含增强的假象。由于FID是计算生成的样本和未增强的真实图像之间的特征距离,我们认为合成样本中的增强伪影是导致FID较差的根本原因。

3.2 Augmenting Both Real and Fake Images Improves GANs Consistently

基于上述观察,我们很自然地想知道,在将生成的图像输入鉴别器之前,以同样的方式增强它们是否可以缓解这个问题。这样,鉴别器就不能用增强伪影来区分真伪图像了。

为了评价合成图像的增强效果,我们将SNDCGAN和BigGAN训练为同时增强真实图像和生成的图像,然后在训练时将它们输入鉴别器。与增强真实图像不同,我们保留了增强生成图像的梯度来训练生成器

鉴别器现在被训练来区分增强后的真实图像 t ( I r e a l ) t(\mathcal I_{real}) t(Ireal)和增强后的假图像t(G(z))。我们在图3和图5中展示了SNDCGAN和BigGAN生成的FID(表示为 “vanilla_rf”),其中横线表示没有任何增强的基线FID。如图3所示,这种新的增强策略大大改善了不同强度的增强的FID。

通过比较图3和图2的结果,我们得出结论,对真实图像和虚假图像进行增强,可以大幅提高GAN的生成性能。此外,对于SNDCGAN,我们发现通过translation 强度为0.1的最佳FID为18.94,与Zhang等人[42]报告的仅对增强的真实图像进行一致性正则化的FID 18.72相当。

这一观察结果对BigGAN也是成立的,我们得到的FID为11.03,而CRGAN[42]的FID为11.48。这些结果表明,对真实和虚假图像的图像增强可以大大改善香草GANs的训练,据我们所知,以前的工作还没有研究过这一点。

我们在图3和图5中比较了扩展操作的有效性。顶部行中的操作(如平移、缩放和缩小)要比底部行中的操作(如亮度、颜色和混淆)有效得多。我们的结论是,导致空间变化的增强比那些主要引起视觉变化的增强更能改善GAN性能。

3.3 Augmentations Increase the Support Overlap between Real and Fake Distributions

在这一节中,我们将研究为什么对真实和虚假的图像进行增强会大大地提高GAN的性能。粗略地说,GANs的目标对应于使生成的图像分布接近真实图像分布。然而,正如以前的工作[35,1]所提到的,训练GAN的困难源于这两个集中的分布,其support不重叠:真实图像分布通常被假定为集中在一个低维流形上或周围,同样,生成的图像分布在构造上是退化的。

因此,Sønderby等人[35]提出为真实图像和伪造图像添加实例噪声(即高斯噪声)作为增强,以增加这两个分布之间的支持度的重叠。我们认为,其他保留语义的图像增强也有类似的效果,可以增加重叠度,而且对图像生成更为有效

在图4中,我们显示增强t∼T可以降低增强后的 t ( I r e a l ) 和 t ( I f a k e ) t(\mathcal I_{real})和t(\mathcal I_{fake}) t(Ireal)t(Ifake)之间的FID,这表明图像分布的支持和模型分布的支持在增强后有更多重叠。然而,并不是所有的增强或强度都能提高生成图像的质量,这表明天真地把分布拉到一起可能不一定能提高生成质量。我们假设某些类型的增强和高强度的增强会导致图像远离自然图像分布;我们将理论上的论证留给未来的工作。

4 Effect of Image Augmentations for Consistency Regularized GANs

我们现在转向更高级的正则化gan,它们是建立在增广的使用上的。一致性正则化GAN (CR-GAN)[42]实验证明一致性正则化可以显著提高GAN的训练稳定性和生成性能。Zhao等人[46]通过引入平衡一致性正则化(BCR)对该方法进行了改进,将BCR应用于真实图像和虚假图像。这两种方法都需要对图像进行增强处理,我们在附录中简单总结了BCR-GAN算法1。
在这里插入图片描述
在这里插入图片描述

图5:BigGAN在CIFAR-10上的FID平均值和std。蓝色虚线显示了没有增强训练的BigGAN的基线FID=14.73。vanilla_rf"(第3.2节)表示在训练vanilla BigGAN时,同时对真实和虚假图像进行增强。bcr’(第4节)对应的是在增强的真实和虚假图像上用BCR训练BigGAN。这个图可以作为训练具有增强功能的GAN的一般准则,与图3的含义相似。

然而,这两项工作都没有研究单个增强的影响和重要性,只有非常基本的几何变换被用来作为增强。我们相信对增强技术的深入分析可以加强一致性正则化在GANs中的下游应用。在这里,我们主要是分析不同的增强对BCR-GAN的功效。我们根据最佳实践,在算法1中设定BCR强度 λ B C R = 10 λ_{BCR}=10 λBCR=10

我们在图3和图5中展示了SNDCGAN和BigGAN在增强的真实和虚假图像上的生成FID(用 "bcr "表示),其中横线表示没有任何增强的基线FID。实验结果表明,对真实和虚假图像的增强进行一致性正则化可以进一步提高生成性能。

更重要的是,我们还可以通过仔细选择augmentation 类型和强度来大大超越现有技术水平。对于SNDCGAN,最好的FID为14.72,强度为0.4的缩放,而Zhao等人[46]报告的相应FID为15.87,其中应用了4个像素的基本平移和翻转。BigGAN的最佳FID为8.65,平移强度为0.4,优于Zhao等人[46]报告的相应FID 9.21。

类似于第3.2节,增强技术大致可以分为两类,按照效果的降序排列:空间变换、zoomout、zoomin、translation、translationx、translationx、translationx、cutout、cutmix;视觉变换,亮度,红色,绿色,蓝色,混合。空间变换在保留主要内容的同时引入空间方差,可以与BCR一起大幅提高GAN性能。另一方面,实例噪声[35]可能有助于稳定GAN训练,但不能提高生成性能

5 Effect of Images Augmentations for GANs with Contrastive Loss

图像增强也是对比性学习的一个重要组成部分,它最近导致了自我监督学习的性能大幅提高[7, 14]。鉴于对比性损失在表征学习中的成功和一致性正则化在GANs中的成功,它自然地提出了这样一个问题:添加这样一个正则化项是否有助于训练GANs?在这一节中,我们首先展示了我们如何应用对比性损失(CntrLoss)来正则化GAN训练。然后,我们分析了Cntr-GAN的性能是如何被不同的增强所影响的,包括现有工作中的增强集的变化[7]。

Contrastive Loss for GAN Training 对比性损失最初是由Hadsell等人[12]提出的,其方式是将相应的正数对拉到一起,而将负数对推开。

在这里,我们提出了Cntr-GAN,其中对比性损失被应用于真实和虚假图像的两个随机增强副本上,使鉴别器正则化(regularizing the discriminator)。CntrLoss鼓励判别器将不同的图像表现推开,同时将同一图像的增强部分拉近。由于篇幅有限,我们在附录D中详细介绍了CntrLoss,并在附录中说明了我们的Cntr-GAN是如何通过增强真实和虚假图像进行训练的(算法2)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gauS0UGz-1629259308143)(005.jpg)]

对于增强技术,我们采用Chen等人[7]中描述的增强技术,并对其进行采样,称之为simclr。simclr增强的细节可以在附录(Section B)中找到。由于CntrLoss偏爱大批量,我们主要在模型容量更高的BigGAN上进行实验。如表1所示,Cntr-GAN在没有任何增强的情况下优于基线BigGAN,但低于BCR-GAN。

由于BCR和CntrLoss都利用了增强,但它们在拉近正象对和推开负像对的方式上是互补的,我们进一步用CntrLoss和BCR对BigGAN进行正则化实验。

在λCntr=0.1,λBCR=5的情况下,我们能够实现新的最先进的FID=8.30。表1比较了vanilla BigGAN与BigGAN的性能,BigGAN对增量有不同的正则化,附录中的图12显示了强度对结果的影响。虽然BCR直接在判别器对数上执行一致性损失,但与Cntr一起,它进一步帮助学习更好的表征,最终可以反映在生成性能上。

Cntr-GAN Benefits From Stronger Augmentations

在表1中,我们采用文献中BCR[46]和CntrLoss[7]的默认增重。现在我们进一步研究simclr所使用的图像变换对Cntr-GAN的影响最大,以及本文所考虑的其他增强方法的有效性。我们对Cntr-GAN进行了广泛的实验,并在图6中报告了最具代表性的增强体。

在这里插入图片描述

在这里插入图片描述

图6:不同图像增强的CntrLoss正则化BigGAN。蓝色虚线表示BigGAN未经增强训练的基线FID=14.73。这里我们在默认的simclr中调整裁剪-调整大小的强度。Cntr-GAN在空间增广方面的表现始终优于香草GAN。

总的来说,我们发现与BCR-GAN相比,Cntr-GAN更喜欢更强的增强变换。空间增强仍然比视觉增强效果好,这与我们观察到的改变simclr的颜色抖动强度不能帮助提高性能相一致。在图6中,我们展示了改变’simclr’中的裁剪/调整强度的结果,以及其他对Cntr-GAN有帮助的代表性增强方法。对于大多数增强方法,CntrGAN在0.5左右的较高增强强度下达到了最佳性能。对于CntrGAN来说,我们应用调整后的simclr增强方法,在裁剪/调整强度为0.3的情况下达到了11.87的最佳FID。

6 Discussion

在此,我们对几个不同方面进行了补充分析和讨论。由于篇幅有限,我们在下文中总结了我们的发现,并在附录中列出了可视化的结果。

Artifacts. Zhao等人的[46]研究表明,不平衡(仅适用于真实图像)增强和正则化会导致GAN模型相应的生成伪影。因此,我们在附录(E节)中提出了对不同增强和GAN训练设置的随机采样的定性图像。对于香草GAN,同时增强真实和虚假图像比只增强真实图像能大幅减少生成伪影。通过增加对比损失和一致性正则化,可以进一步提高生成质量。

Annealing Augmentation Strength. 我们已经广泛地试验了首先设置λaug,它限制了增强强度,然后随机地对增强进行采样。但是,如果我们在训练期间对λaug进行退火处理,GAN的性能会有什么变化呢?我们的实验表明,在训练中退火增强的强度会降低增强的效果,而不改变不同增强的相对效力。改善GAN训练的增强会在退火后减轻其改善;反之亦然。

Composition of Transforms. 除了单一的增强变换外,还使用了多种变换的组成[8, 9, 16]。虽然随机组合变换的维度不在本文的讨论范围内,但我们尝试将平移和亮度分别作为空间和视觉变换应用于BCR-GAN训练。初步结果显示,这种链式增强可以达到最佳的FID=8.42,而用单一的增强翻译所达到的最佳FID是8.58,这表明这种组合是由更有效的translation所主导的。我们把它留给未来的工作,以自动寻找增强构成的最佳策略。

おすすめ

転載: blog.csdn.net/weixin_37958272/article/details/119777366