AlignGAN: Learning to Align Cross-Domain Images with Conditional Generative Adversarial Networks

下载链接:https://arxiv.org/pdf/1707.01400.pdf

一 、什么是对抗?

对抗样本和对抗网络

        所谓对抗,样本是指将实际样本略加扰动而构造出的合成样本,对该样本,分类器非常容易将其类别判错,这意味着光滑性假设(相似的样本应该以很高的概率被判为同一类别)某种程度上被推翻了。

        有一篇论文应该是最早提出对抗样本概念的。该论文指出,包括卷积神经网络在内的深度学习模型在对抗样本面前都十分脆弱,从而将矛头直指深度学习,似乎要为深度学习热潮降一降温。

这篇论文是:Intriguing properties of neural networks, by Christian Szegedy at Google, et al,2014

这篇博客:http://www.lancezhange.com/2015/11/19/adversarial-samples/ 深入的介绍了对抗样本和对抗网络。

这篇博客:https://blog.csdn.net/qq_21210467/article/details/81836976 介绍了各类GAN。

二、AlignGAN解决了什么问题?

        近来,已经提出了几种基于生成对抗网络(GAN)的方法,用于对齐跨域图像或学习跨域图像的联合分布。 其中一种方法是使用条件GAN进行比对。 然而,采用条件GAN的先前尝试不如其他方法那样好。 在这项工作中,我们提出了一种方法来提高基于条件GAN的方法的能力。 我们评估提出的方法在许多任务和实验结果表明,它能够对齐跨域图像成功的情况下配对样本。 此外,我们还提出了另外一个模型,对多个信息进行条件化,如域信息和标签信息。 通过调整域信息和标签信息,我们能够从源域向目标域传播标签。 为了学习这个模型,提出了两步交替训练算法。

三、相关工作

事实证明,生成对抗网络(GAN)[5]在各种计算机视觉任务中均取得了巨大的成功[6、8、14]。 本文解决了对齐跨域图像或学习跨域图像联合分布的问题[9]。 针对该问题的早期方法[6,17]需要来自不同域的成对图像,这限制了这些方法的有效性。 最近,有人提出了CoGAN [9],它解除了配对图像的限制。 特别是,CoGAN耦合了两个GAN,其中两个生成器共享前几层的权重,引导两个生成器生成对齐的图像。

在本文中,我们介绍了一个基于条件GAN的名为AlignGAN的用于对齐跨域图像的模型。与CoGAN相似,我们提出的AlignGAN也能够在没有配对图像的情况下对齐跨域图像。使用条件GAN进行对齐的想法是通过条件域向量学习特定于域的语义,并通过其他潜在向量来学习共享语义。但是,正如文献[9]所指出的,直接采用条件GAN将无法为某些任务对齐跨域图像。我们发现,确定哪些域将受到域向量的限制对于性能至关重要。我们提出的AlignGAN受以下两个想法的启发。首先,对于生成器,不同域的最高级别语义应该相似。因此,我们不应该在生成器的噪声输入层上调节域矢量。其次,对于鉴别器,我们应该增强域信息信号,以使鉴别器知道图像来自哪个域。图像输入层为鉴别器生成最强的信号。因此,我们应该在鉴别器的图像输入层上设定域向量。我们将AlignGAN用于许多任务,包括数字和负数字,金发和黑发以及椅子和汽车。此外,AlignGAN不限于两个域,并且可以通过仅向域向量添加更多维度来将其扩展到三个或更多域,如图4(a)所示。

基于AlignGAN,我们还提出了另一个模型,该模型以多种信息为条件,例如域信息和标签信息。 假设我们只有源域的标签信息。 通过从源域学习标签信息并使用域信息对齐图像,该模型能够将标签信息从源域传播到目标域。 但是,直接融合多个条件信息的训练很难收敛。 我们建议在不同的层上调节域向量和标记向量,并通过交替优化来训练模型。

在本文中,我们做出了以下贡献:

(1)我们提出AlignGAN,它基于条件GAN来对齐跨域图像。 我们在许多任务上评估AlignGAN,实验结果证明了该方法可用于对齐跨域图像。 

(2)我们还提出了另一种模型,该模型以多种信息为条件,例如域信息和标签信息此模型能够将标签信息从源域传播到目标域。 此外,提出了一种两步交替优化算法来训练该模型。

Goodfellow等。 [5]提出了一种生成对抗网络(GAN),它在生成模型中取得了巨大的成功。 此后,提出了许多工作来改善图像质量[11、14、19]或稳定学习过程[1、12、16]。 此外,GAN已应用于各种计算机视觉任务,例如图像超分辨率[8],文本到图像翻译[15]和图像到图像翻译[6]。

与本文最相关的工作是CoGAN [9],它也尝试对齐跨域图像。 在文献[9]中,作者还尝试使用条件GAN来完成此任务。 但是,他们的尝试在许多任务中都失败了,例如对齐数字和负数字。 与我们的工作有关的另一项任务是图像到图像的翻译[7,21]。 [20]和[7]都采用了两个GAN,它们构成了循环映射,从而形成了重建损失。 董等。 [3]提出使用条件GAN进行图像到图像的翻译。 他们首先训练了条件GAN以学习共享特征,然后训练了编码器以将图像映射到潜在矢量。

四、 模型

在本节中,我们首先在第1节中简要回顾GAN和条件GAN。 然后,在第2节中介绍拟议的AlignGAN。 最后,第3节介绍了以多种信息为条件的模型。

4.1 GAN and Conditional GAN

GAN的框架由两个参与者组成,即鉴别器D和生成器G。给定数据分布p data,G尝试学习分布p g。 G从均匀分布p z(z)的噪声输入z采样开始,然后将z映射到数据空间G(z;θg)。 另一方面,D的目的是区分样本是来自p数据还是来自p g。 GAN的目标可以表述为:

条件GAN引入了额外的信息y,其中鉴别器和生成器均以y为条件。 可以将条件GAN的目标表述如下:

4.2 AlignGAN

我们提出的AlignGAN基于条件GAN。 直觉是通过条件域向量学习特定于域的语义,并通过其他共享潜在向量来学习共享语义 先前使用条件GAN对齐跨域图像的尝试[9]已显示其在许多任务中的失败。 经过广泛的探索,我们总结出以下两个成功学习的规则。

首先,对于生成器,噪声输入层不应受域矢量限制。 因为模型应该为不同的领域学习相同的最高层语义。 对于生成器的其他层,它们应以域向量为条件。

其次,对于鉴别器,图像输入层应以域矢量为条件。 因为输入层会生成最强的信号,以使鉴别器知道图像来自哪个域。 对于鉴别器的其他层,我们发现是否要对其进行调节对性能并不重要。

基于以上两个规则,我们在图1中介绍了AlignGAN的网络架构。

图1. AlignGAN的网络架构。 (a):判别器。 (b):生成器。 “ Conv”和“ Deconv”分别表示卷积层和反卷积层。 “ FC”表示完全连接的层。

4.3 Conditioning on Multiple Information

我们提出的另一种模型是以多种信息为条件,例如域信息和标签信息域信息有助于对齐来自不同域的图像,而标签信息则可以控制所生成图像的类别。结合两种信息的一种应用是,当我们只有源域的标签信息时,我们可以将标签信息从源域传播到目标域。这个想法是从源域中学习标签信息的语义,并从域信息中对齐图像。结果,该模型能够控制目标域的生成图像的类别。一种简单的方法是首先连接域和标记向量,然后由生成器和鉴别器进行条件处理。但是,我们发现此简单方法无法收敛。我们建议分别调节域向量和标记向量,这意味着域向量和标记向量受不同层的限制。如第4.2节所述,不应为生成器的噪声输入层设置域矢量。相反,对于标记向量,最高级别的语义随不同类别而变化。因此,标记矢量应由生成器的噪声输入层来调节。如图2所示,我们将标记向量置于不受域向量限制的层上。

 

图2.该模型的网络架构基于多个信息。 (a):判别器。 (b):生成器。 

两步交替训练。 我们采用两步训练算法,通过交替优化来学习特定领域的语义和共享标签的语义。 在第一步中,我们利用带有标签向量的源域图像来学习标签语义,并将域向量设置为零向量。 在第二步中,我们利用源和目标域图像以及域向量来学习特定于域的语义,并将标记向量设置为零向量。 训练过程在算法1中正式提出。请注意,超参数τ用于调整领域语义和标签语义之间的训练迭代分配。 在我们的实验中,我们设置τ= 4。

5. 实验

5.1 Implementation Details

除了对齐数字和负数字的任务外,我们采用LSGAN [11]来训练模型,因为LSGAN能够生成更高质量的图像并稳定学习过程。 对于对齐数字和负数的任务,我们采用常规GAN,因为我们发现常规GAN可以很好地完成此任务,而LSGAN有时无法对齐数字和负数的图像。 对于LSGAN,我们选择了a = -1,b = 1和c = 0的参数,这些参数已被证明可以最小化Pearsonχ2散度。 然后将公式1替换为以下公式:

我们使用Adam优化器,LSGAN的学习率为0.0005,常规GAN的学习率为0.0002。 我们实施的所有代码都将很快公开。

模型选择对于LSGAN,我们发现在训练过程中生成图像的质量会在好坏之间转移。 我们通过在某些迭代中检查生成的图像的质量来手动选择模型。

5.2 AlignGAN

在本节中,我们将在数位数据集上评估AlignGAN,包括数字,面部,边缘,椅子和汽车。

5.2.1 Digits

对于此任务,我们使用USPS和MNIST数据集来评估AlignGAN的性能。 根据文献[9],我们首先针对以下两个任务评估AlignGAN。 第一个是对齐数字和边缘数字的图像。 第二个是对齐数字和负数的图像。 另外,我们进一步应用AlignGAN来对齐USPS和MNIST数字的图像。 如图3所示,AlignGAN为所有三个任务成功地学习了对齐图像。

5.2.2 Faces

我们还将在CelebFaces Attributes数据集[10]用于该实验的面部图像上评估AlignGAN。 我们研究了以下四个任务:1)不同颜色的头发之间的对齐; 2)戴眼镜与不戴眼镜之间的对准; 3)男女对齐; 4)有side角的雄性和没有without角的雄性之间的对齐。 结果显示在图4中,其中生成的图像的分辨率为112×112。

 

 

5.2.3 Edges and Photos

另一个评估是在手袋[20]或鞋子[18]的边缘图像和逼真的照片之间对齐。 图5显示了生成的分辨率为64×64的结果,我们可以观察到AlignGAN学会了成功地在边缘和真实照片之间对齐。

5.2.4 Chairs and Cars

 根据文献[7],我们还研究了对齐椅子[2]和汽车[4]的图像的任务,以研究AlignGAN是否能够了解两个不同域之间的旋转关系。 如图6所示,生成的椅子和汽车的旋转角度高度相关。

 

5.3 Conditioning on Multiple Information

 我们将针对多种信息提出的模型条件应用于两个任务。 MNIST数据集用于第一个任务,其中源域和目标域分别是数字和负数字。 第二项任务是在USPS数字和MNIST数字之间。 训练期间仅使用源域的标签信息。 通过控制标记向量,我们可以生成0到9之间的数字,其结果如图7所示。我们有以下两个观察结果。 首先,图7中的配对图像高度相关。 其次,我们能够通过调整标签向量来控制生成的目标域数字的类别。

6. Conclusions

在本文中,我们提出了两种模型。 第一个称为AlignGAN,用于基于条件GAN对齐跨域图像。 AlignGAN已在许多任务上进行了评估,实验结果证明了AlignGAN在对齐跨域图像方面的有效性。 第二个是AlignGAN的扩展,它不仅以域信息为条件,而且以标签信息为条件。 以这两种信息为条件,我们能够完成从源域到目标域的标签传播。

发布了130 篇原创文章 · 获赞 135 · 访问量 18万+

猜你喜欢

转载自blog.csdn.net/yql_617540298/article/details/105700973