【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks

一、前言

【Paper】 > PyTorch版【Code】 > 官方TensorFlow版【Code】 > 【supplement精读】
本篇博客是StyleGAN原始论文的中文版精读,帮助全面深入理解StyleGAN。
Pipeline:

  1. 首先StyleGAN灵感来自style transfer literature。
  2. 改进是基于Progressive GAN(A) + Tuning (incl. bilinear up/down)(B) + Add mapping and styles(C) + Remove traditional input(D) + Add noise inputs(E) + Mixing regularization(F)
  3. Style mixing见3.1节。加噪声添加随机性见3.2节
  4. 还提出了两个automated metrics分别是:perceptual path length and linear separability用于量化生成器潜在空间解纠缠度的估计。
  5. 还提供了一个开源人脸数据集FFHQ(Flickr-Faces-HQ)https://github.com/nvlabs/ffhq-dataset

Abstract

简介:借鉴style转移文献,我们提出了一种生成对抗网络的替代生成器体系结构。
特点:新的体系结构leads to自动学习、无监督地分离高级属性(例如,在人脸上训练时的姿态和身份)和生成图像中的随机变化(例如,雀斑、头发),并且它能够对合成进行直观的、特定尺度的控制。
新生成器改进了传统分布质量度量的现状,导致显着更好的插值性质,也更好地分离了潜在的变化因素。
比较方法:为了量化插值质量和解纠缠,我们提出了两种新的、自动化的方法,适用于任何生成器结构。
FFHQ数据集:最后,我们介绍了一个新的,高度变化和高质量的人脸数据集。

1. Introduction

近年来,生成方法–尤其是生成对抗网络(GAN)[21]-产生的图像的分辨率和质量得到了迅速的提高[28,41,4]。 然而,生成器仍然像黑箱一样运行,尽管最近做出了努力[2],但对图像合成过程的各个方面的理解,例如随机特征的起源,仍然缺乏。 对潜空间的性质也知之甚少,通常证明的潜空间插值[12,48,34]没有提供定量的方法来比较不同的生成器。

受style转移文献[26]的激励,我们重新设计了生成器架构,以一种新的方法来控制图像合成过程。 我们的生成器从一个学习的常数输入开始,根据潜在代码在每个卷积层调整图像的“style”,从而直接控制不同尺度下图像特征的强度。 与直接注入到网络中的噪声相结合,这种结构变化导致自动、无监督地从生成的图像中的随机变化(例如,雀斑、头发)中分离高级属性(例如,姿态、身份),并实现直观的分度混合和插值操作。 我们不以任何方式修改鉴别器或损失函数,因此我们的工作与正在进行的关于GAN损失函数、正则化regularization和超参数的讨论正交[23,41,4,37,40,33]。

我们的生成器将输入的潜在代码嵌入到一个中间潜在空间中,这对网络中变化因素的表示产生了深远的影响。 输入的潜在空间必须遵循训练数据的概率密度,我们认为这会导致某种程度的不可避免的纠缠。 我们的中间潜在空间不受这种限制,因此被允许被解除纠缠。 由于以前估计潜在空间解纠缠程度的方法在我们的情况下并不直接适用,我们提出了两个新的自动度量–感知路径长度和线性可分性(perceptual path length and linear separability)–来量化生成器的这些方面。 使用这些度量,我们表明,与传统的生成器结构相比,我们的生成器允许不同变化因素的更线性、更少纠缠的表示。

最后,我们提出了一个新的人脸数据集(FlickrFaces-HQ,FFHQ),它比现有的高分辨率数据集(附录A)提供了更高的质量和更广泛的变化。我们已经公开了这个数据集,以及我们的源代码和预训练的网络。附带的视频可以在相同的链接下找到。 于官方TensorFlow版【Code】

2. Style-based generator

在这里插入图片描述

虽然传统的生成器 {Karras2017} 仅通过输入层提供潜在代码,但我们首先将输入映射到中间潜在空间 W \mathcal{W} W,然后通过每个卷积层的自适应实例归一化(AdaIN)来控制生成器。在每次卷积之后、评估非线性之前添加高斯噪声。这里“A”代表学习的仿射变换,“B”将学习的每通道缩放因子应用于噪声输入。映射网络 f f f 由 8 层组成,合成网络 g g g 由 18 层组成-----每个分辨率两层( 4 2 − 102 4 2 4^2-1024^2 4210242)。最后一层的输出使用单独的 1 × 1 1\times1 1×1 卷积转换为 RGB,类似于 Karrasetal.{Karras2017}。我们的生成器总共有 2620 万个可训练参数,而传统生成器只有 2310 万个。

传统上,潜在代码通过输入层(即前馈网络的第一层)提供给生成器(图1a)。我们通过完全省略输入层并从学习的常量开始来偏离此设计(图1b,右)。给定输入潜在空间 Z \mathcal{Z} Z 中的潜在代码 z \mathrm{z} z,非线性映射网络 f : Z → W f:\mathcal{Z}\to\mathcal{W} f:ZW 首先生成 w ∈ W \mathrm{w} \in \mathcal{W} wW(图1b,左)。为简单起见,我们将两个空间的维数设置为 512,并且使用 8 层 MLP 实现映射 f f f,我们将在第4.1节中分析这一决策。
然后学习仿射变换将 w \mathrm{w} w 专门化到 styles y = ( y s , y b ) y = (y_s, y_b) y=(ys,yb) 来控制自适应实例规范化 (AdaIN){Huang2017,Dumoulin2016,Ghiasi2017,Dumoulin2018}合成网络 g g g 的每个卷积层之后的操作。 AdaIN 操作定义为
AdaIN ( x i , y ) = y s , i x i − μ ( x i ) σ ( x i ) + y b , i , \begin{equation} \textrm{AdaIN}(x_i,y) = y_{s,i}\frac{x_i-\mu(x_i)}{\sigma(x_i)} + y_{b,i} \textrm{,} % \end{equation} AdaIN(xi,y)=ys,iσ(xi)xiμ(xi)+yb,i,其中每个特征图 x i x_i xi 分别进行归一化,然后使用style y y y 中相应的标量分量进行缩放和偏置。因此 y y y 的维度是该层上特征图数量的两倍。

将我们的方法比较于style迁移方法,我们从向量 w \mathrm{w} w 而不是示例图像计算空间不变style y y y
我们选择对 y y y 重复使用“style”一词,因为类似的网络架构已经用于前馈style传输{Huang2017}、无监督图像到图像翻译{Huang2018} 和域混合{Hao2018}.与更通用的特征变换{Li2017C,Siarohin2018}相比,AdaIN 由于其效率和紧凑的表示特别适合我们的目的。

最后,我们通过引入显式noise inputs为生成器提供了生成随机细节的直接方法。
这些是由不相关的高斯噪声组成的单通道图像,我们将专用的噪声图像提供给合成网络的每一层。
使用学习到的每个特征缩放因子将噪声图像广播到所有特征图,然后添加到相应卷积的输出中,如图1b 所示。添加噪声输入的影响将在章节3.2 和3.3 中讨论。

2.1. Quality of generated images

在这里插入图片描述
在研究我们的生成器的特性之前,我们通过实验证明了重新设计不会影响图像质量,事实上,它还大大提高了图像质量。 Table 1给出了 CelebA-HQ{Karras2017} 和我们新的 FFHQ 数据集(附录 A)中各种生成器架构的 Fr’echet inception distances (FID){Heusel2017} 。
其他数据集的结果在补充中给出。
我们的基线配置(A)是 Karras etal.{Karras2017} 的渐进式 GAN 设置,除非另有说明,我们从中继承网络和所有超参数。我们首先通过使用双线性上/下采样操作{zhang2019}、更长的训练和调整的超参数切换到改进的基线(B)。
补充中包含训练设置和超参数的详细描述。
然后,我们通过添加映射网络和 AdaIN 操作 ( C ) 进一步改进这个新基线,并令人惊讶地观察到网络不再从将潜在代码输入到第一个卷积层中受益。因此,我们通过删除传统的输入层并从学习的 4 × 4 × 512 4\times4\times512 4×4×512 常量张量 (D) 开始图像合成来简化架构。
我们发现,即使合成网络仅通过控制 AdaIN 操作的style接收输入,它也能够产生有意义的结果,这一点非常引人注目。

最后,我们引入了进一步改善结果的噪声输入 (E),以及新颖的 mixing regularization (F),这将消除相邻style的关联,并允许对生成的图像进行更精细的控制(第3.1节)。

我们使用两种不同的损耗函数来评估我们的方法:对于Celeba-HQ,我们依赖WGAN-GP[23],而FFHQ使用WGAN-GP来描述配置A和非饱和损耗[21]与R1正则化[40,47,13]来描述配置B-F。 我们找到这些选择是为了给出最好的结果。 我们的贡献不修改损失函数。
在这里插入图片描述

我们观察到,基于style的生成器 (E) 比传统生成器 (B) 显着提高了 FIDs,接近 20%,证实了并行工作中进行的大规模 ImageNet 测量 {Chen2018self,Brock2018}。
图2显示了使用我们的生成器从 FFHQ 数据集生成的一组未经整理的新颖图像。
经FIDs证实,平均品质较高,甚至眼镜、帽子等配饰也能成功合成。
对于这个图,我们避免使用所谓的截断 trick{Marchesi2017, Brock2018, Kingma2018}}从 W \mathcal{W} W 的极端区域进行采样----- Appendix B详细说明了如何在 W \mathcal{W} W 而不是 Z \mathcal{Z} Z 中执行该技巧。
请注意,我们的生成器仅允许有选择地将截断应用于低分辨率,因此高分辨率细节不会受到影响。

本文中的所有 FIDs 都是在没有截断技巧的情况下计算的,我们仅将其用于图2和视频中的说明目的。所有图像均以 102 4 2 1024^2 10242 分辨率生成。

2.2. Prior art

GAN 架构的大部分工作都集中在通过使用多个判别器 {Durugkar2016,Mordido2018,Doan2018}、多分辨率判别 {Wang2017,Sharma2018} 或自注意力 {Zhang2018sagan} 来改进判别器。
生成器方面的工作主要集中在输入潜在空间中的精确分布 {Brock2018} 或 通过高斯混合模型{BenYosef2018}、聚类{Mukherjee2018}或鼓励凸性encouraging convexity{Sainburg2018}塑造输入潜在空间。

最近的条件生成器通过单独的嵌入网络将class identifier提供给生成器中的大量层{Miyato2018},而潜在的仍然通过输入层提供。
一些作者考虑将部分潜在代码馈送到多个生成器层{Denton2015,Brock2018}。
在并行工作中,Chen 等人{Chen2018self} 使用 AdaINs “self modulate” 生成器,与我们的工作类似,但不考虑中间潜在空间或噪声输入。

3. Properties of the style-based generator

我们的生成器结构使得通过对styles的scale-specific的修改来控制图像合成成为可能。
我们可以将映射网络和仿射变换视为从学习的分布中为每个style提取样本的方法,将合成网络视为基于styles集合生成新图像的方法。
每个style的效果在网络中是局部化的,即,修改styles的特定子集可以预期只影响图像的某些方面。

为了了解这种局部化的原因,让我们考虑AdaIN如何操作(公式1)首先将每个通道归一化为零均值和单位方差,然后才根据style应用尺度和偏差。
新的每通道统计信息,正如style所规定的那样,修改了特征对于后续卷积操作的相对重要性,但由于归一化,它们不依赖于原始统计信息。
因此,在被下一个AdaIN操作重写之前,每个style只控制一个卷积。

3.1. Style mixing

为了进一步鼓励styles局部化,我们采用 mixing regularization,其中给定百分比的图像是在训练期间使用两个随机潜在代码而不是一个潜在代码生成的。
当生成这样的图像时,我们只需在合成网络中随机选择的点从一个潜在代码切换到另一个潜在代码-----我们称之为style mixing------的操作。
具体来说,我们通过映射网络运行两个潜在代码 z 1 , z 2 \mathrm{z}_1,\mathrm{z}_2 z1z2,并让相应的 w 1 , w 2 \mathrm{w}_1,\mathrm{w}_2 w1w2控制样式,以便 w 1 \mathrm{w}_1 w1应用在交叉点之前, w 2 \mathrm{w}_2 w2应用在交叉点之后。
这种正则化技术可以防止网络假设相邻样式是相关的。
在这里插入图片描述
在这里插入图片描述

根据各自的潜码生成两组图像(源A和源B);其余的图像是通过从源B复制指定的样式子集并从源A获取其余的样式生成的。复制对应于粗空间分辨率(42 - 82)的样式带来了高层次的方面,如姿势、一般的发型、脸型和从源B获得的眼镜,虽然所有的颜色(眼睛、头发、光线)和更好的面部特征都像A。
如果我们从B中复制中等分辨率(162 - 322)的样式,我们从B中继承较小尺度的面部特征、发型、眼睛睁开/闭,而从A中保留了姿势、一般脸型和眼镜。
最后,复制B的精细风格(642 - 10242)主要带来了配色方案和微观结构。

Table 2 显示了在训练期间启用混合正则化如何显着改善定位,这可以通过在测试时混合多个潜在变量的场景中改进的 FIDs 来表明。
图3展示了通过混合不同比例的两个潜在代码合成的图像的示例。
我们可以看到,每个样式子集控制着图像的有意义的高级属性。

3.2. Stochastic variation

在人类肖像中,有许多方面可以被认为是随机的,比如头发、胡茬、雀斑或皮肤毛孔的确切位置。只要它们遵循正确的分布,任何一个都可以随机化,而不会影响我们对图像的感知。

让我们考虑一下传统生成器是如何实现随机变化的。考虑到网络的唯一输入是通过输入层进行的,网络需要发明一种方法,在需要时从早期的激活中生成空间变化的伪随机数。
这将消耗网络容量,而且很难隐藏生成信号的周期性——而且并不总是成功,从生成图像中常见的重复模式就可以看出这一点。
通过在每次卷积后添加逐像素噪声,我们的架构完全避免了这些问题。
在这里插入图片描述

随机变化的例子。(a)两个生成的图像。(b)不同输入噪声实现的放大。虽然它们的整体外观几乎相同,但每根头发的位置却非常不同。(c )超过100种不同实现的每个像素的标准差,突出图像的哪些部分受到噪声的影响。主要的区域是头发,剪影,和背景的部分,但也有有趣的随机变化在眼睛的反射。全局方面,如身份和姿态不受随机变化的影响。

在这里插入图片描述

噪声输入在我们的生成器的不同层的影响。(a)噪音应用于所有层。(b)无噪音。(c )只在细层发出噪音(642 - 10242)。(d)只在粗层发出噪音(42 - 322)。我们可以看到,人为的忽略噪音,导致了毫无特色的“绘画”观感。粗糙的噪音导致头发的大规模卷曲和更大的背景特征的出现,而细的噪音带来头发更细的卷曲,更细的背景细节,和皮肤毛孔。

图4显示了相同底层图像的随机实现,使用我们的生成器与不同的噪声实现。
我们可以看到,噪声只影响随机方面,而不影响整体构成和高层次方面,如身份完整性。
图5进一步说明了对不同的层子集应用随机变化的效果。
由于这些效果最好在动画中看到,请参考附带的视频演示如何改变一个层的噪声输入导致随机变化at a matching scale。

我们发现了一个有趣的现象:噪声的影响在网络中出现了紧密的局部化。
我们假设,在生成器的任何位置,都存在尽快引入新内容的压力,而我们的网络创造随机变化的最简单方法就是依赖于所提供的噪声。
每一层都有一组新的噪声,因此没有动力从早期激活中产生随机效应,从而导致局部效应。

3.3. Separation of global effects from stochasticity

前面的部分以及伴随的视频表明,虽然改变风格具有全局效应(改变姿势、身份等),但噪音只影响无关紧要的随机变化(不同梳理的头发、胡须等)。
这一观察结果与风格转移文献一致,其中已经确定,空间不变统计(Gram矩阵、通道均值、方差等)可靠地编码图像的风格[19,36],而空间变化特征编码特定实例。

在我们的基于样式的生成器中,样式影响整个图像,因为完整的特征映射是用相同的值缩放和偏置的。
因此,全局效果,如姿态,照明,或背景风格可以控制一致。
同时,噪声被独立地添加到每个像素上,因此非常适合控制随机变化。
如果网络试图控制,例如,使用噪声来控制姿态,这将导致空间上的不一致决定,然后将受到鉴别器的惩罚。
因此,在没有明确指导的情况下,网络学会了适当地使用全球和本地渠道。

4. Disentanglement studies

在这里插入图片描述

解纠缠有多种定义[50,46,1,6,18],但一个共同的目标是由线性子空间组成的潜在空间,每个子空间控制一个变量。
但是 Z \mathcal{Z} Z中每个因子组合的采样概率需要与训练数据中相应的密度相匹配。
如图6所示,这使得这些因素无法与典型的数据集和输入的潜在分布完全分离。1

我们的生成器架构的一个主要好处是中间潜在空间 W \mathcal{W} W 不必支持根据任何 fixed 分布进行采样;
它的采样密度是由learned分段连续映射 f ( z ) f(\mathrm{z}) f(z) 引起的。
这种映射可以适应“unwarp” W \mathcal{W} W,以便变化因素变得更加线性。
我们认为生成器这样做是有压力的,因为基于解纠缠表示生成逼真的图像应该比基于纠缠表示更容易。
因此,我们期望训练在无监督的环境中产生较少纠缠的 W \mathcal{W} W,即当事先不知道变化因素时{Desjardins2012,Kingma2014VAE,Rezende2014,Chen2016,Higgins2017,Kim2018,Chen2018} 。

不幸的是,最近提出的用于量化解缠结的指标{Higgins2017,Kim2018,Chen2018,Eastwood2018}需要一个将输入图像映射到潜在代码的编码器网络。
这些指标不适合我们的目的,因为我们的基线 GAN 缺乏这样的编码器。
虽然可以为此目的添加额外的网络 {Chen2016,Donahue2016,Dumoulin2017},但我们希望避免将精力投入到不属于实际解决方案的组件上。
为此,我们描述了两种量化解缠结的新方法,这两种方法都不需要编码器或已知的变化因素,因此对于任何图像数据集和生成器都是可计算的。

4.1. Perceptual path length

正如Laine[34]所指出的,潜在空间向量的插值可能会在图像中产生惊人的非线性变化。
例如,在任何端点都没有的特征可能出现在线性插值路径的中间。
这是潜在空间被纠缠和变量因子没有被正确分离的标志。
为了量化这种影响,我们可以测量当我们在潜在空间中执行插值时,图像经历了怎样的剧烈变化。
直觉上,一个不那么弯曲的潜在空间应该比一个高度弯曲的潜在空间在感知上更平滑的过渡。

作为我们度量的基础,我们使用基于感知的成对图像距离{Zhang2018metric},它被计算为两个 VGG16{simonyan2014} 嵌入之间的加权差,其中权重经过拟合以使度量与人类感知相似性判断一致。
如果我们将潜在空间插值路径细分为线性段,我们可以将该分段路径的总感知长度定义为每个段上的感知差异之和,如图像距离度量所报告的那样。
感知路径长度的自然定义是无限细细分下该总和的极限,但实际上我们使用小细分 epsilon ϵ = 1 0 − 4 \epsilon=10^{-4} ϵ=104 来近似它。
因此,潜在空间 Z \mathcal{Z} Z 中所有可能端点的平均感知路径长度为
l Z = E [ 1 ϵ 2 d ( G ( s l e r p ( z 1 , z 2 ;   t ) ) , G ( s l e r p ( z 1 , z 2 ;   t + ϵ ) ) ) ] , \begin{equation} \begin{array} ll_{\mathcal{Z}} = \mathbb{E}\Big[{\displaystyle \frac{1}{ \epsilon^2}}d\big( G(slerp(\mathrm{z}_1,\mathrm{z}_2;\,t)),G(slerp(\mathrm{z}_1,\mathrm{z}_2;\,t+\epsilon))\big)\Big]\textrm{,} \end{array} \end{equation} lZ=E[ϵ21d(G(slerp(z1,z2;t)),G(slerp(z1,z2;t+ϵ)))],其中 z 1 , z 2 ∼ P ( z ) , t ∼ U ( 0 , 1 ) \mathrm{z}_1,\mathrm{z}_2\sim P(\mathrm{z}),t\sim U(0,1) z1,z2P(z),tU(0,1) , G G G 是生成器(即 g ∘ f g \circ f gf 用于基于样式的网络), d ( ⋅ , ⋅ ) d(\cdot,\cdot) d(,) 评估结果图像之间的感知距离。这里 s l e r p slerp slerp表示球形插值spherical interpolation{shoemake85},这是在我们的归一化输入潜在空间~\cite{white16}中最合适的插值方式。
为了专注于面部特征而不是背景,我们在评估成对图像度量之前裁剪生成的图像以仅包含面部。
由于度量 d d d 是二次的{Zhang2018metric},我们除以 ϵ 2 \epsilon^2 ϵ2
我们通过抽取 100,000 个样本来计算期望值。

计算 W \mathcal{W} W 中的平均感知路径长度以类似的方式进行:
l W = E [ 1 ϵ 2 d ( g ( l e r p ( f ( z 1 ) , f ( z 2 ) ;   t ) ) , g ( l e r p ( f ( z 1 ) , f ( z 2 ) ;   t + ϵ ) ) ) ] , \begin{equation} \begin{array} ll_{\mathcal{W}} = \mathbb{E}\Big[{\displaystyle\frac{1}{\epsilon^2}}d\big(g(lerp(f(\mathrm{z}_1),f(\mathrm{z}_2);\,t)), g(lerp(f(\mathrm{z}_1),f(\mathrm{z}_2);\,t+\epsilon))\big)\Big]\textrm{,} \end{array} \end{equation} lW=E[ϵ21d(g(lerp(f(z1),f(z2);t)),g(lerp(f(z1),f(z2);t+ϵ)))],唯一的区别是插值发生在 W \mathcal{W} W 空间中。由于 W \mathcal{W} W 中的向量未以任何方式标准化,因此我们使用线性插值 ( l e r p lerp lerp)。
在这里插入图片描述

Table 3 显示,对于带有噪声输入的基于样式的生成器,该完整路径长度要短得多,这表明 W \mathcal{W} W 在感知上比 Z \mathcal{Z} Z 更线性。
然而,这种测量实际上稍微偏向于输入潜在空间 Z \mathcal{Z} Z
如果 W \mathcal{W} W 确实是 Z \mathcal{Z} Z 的解缠结和“扁平”映射,则它可能包含不在输入流形上的区域--------因此严重即使在从输入流形映射的点之间,也可以由生成器重建,而输入潜在空间 Z \mathcal{Z} Z 根据定义没有这样的区域。
因此,预计如果我们将测量限制在路径端点,即 t ∈ { 0 , 1 } t \in \{0,1\} t{ 0,1},我们应该获得较小的 l W l_{\mathcal{W}} lW,而 l Z l_{ \mathcal{Z}} lZ 不受影响。
这确实是我们在 Table 3 中观察到的。
在这里插入图片描述
表 4 显示映射网络如何影响路径长度。
我们发现传统的生成器和基于样式的生成器都受益于映射网络,并且额外的深度通常会改善感知路径长度和 FIDs。
有趣的是,虽然 l W l_{\mathcal{W}} lW 在传统生成器中有所改进,但 l Z l_{\mathcal{Z}} lZ 变得相当糟糕,这说明了我们的观点,即输入潜在空间确实可以在 GANs 中任意纠缠。

4.2. Linear separability

如果一个潜在空间被充分地解纠缠,就应该有可能找到一致地对应于个别变化因素的方向向量。
我们提出了另一个度量来量化这种影响,它通过测量潜在空间点如何通过线性超平面被分离成两个不同的集合,以便每个集合对应于图像的特定二值属性。

为了标记生成的图像,我们针对许多二元属性训练辅助分类网络,例如,区分男性和女性面孔。
在我们的测试中,分类器具有与我们使用的鉴别器相同的架构(即与 {Karras2017} 中的相同),并使用CelebA-HQ数据集进行训练,该数据集保留了原始 CelebA 数据集。
为了测量一个属性的可分离性,我们使用 z ∼ P ( z ) \mathrm{z}\sim P(\mathrm{z}) zP(z) 生成 200,000 张图像,并使用辅助分类网络对它们进行分类。
然后,我们根据分类器置信度对样本进行排序,并删除置信度最低的一半,产生 100,000 个标记的潜在空间向量。

对于每个属性,我们拟合一个线性 SVM 来根据潜在空间点预测标签-------- z \mathrm{z} z(传统)和 w \mathrm{w} w(基于样式)-----并通过该平面对点进行分类。
然后,我们计算条件熵 H ( Y ∣ X ) {\mathrm H}(Y|X) H(YX),其中 X X X 是 SVM 预测的类别, Y Y Y 是由预训练分类器确定的类别。
这告诉我们需要多少附加信息来确定样本的真实类别,前提是我们知道它位于超平面的哪一侧。
较低的值表明相应的变量因素的潜在空间方向一致。

我们将最终的可分离性得分计算为 exp ⁡ ( ∑ i H ( Y i ∣ X i ) ) \exp(\sum_i{\mathrm H}(Y_i|X_i)) exp(iH(YiXi)),其中 i i i 枚举了约 40 个属性。
与初始分数类似{Salimans2016B},求幂将值从对数域引入线性域,以便更容易比较。

表 3 和 4 显示 W \mathcal{W} W 始终比 Z \mathcal{Z} Z 具有更好的可分离性,这表明它是一种较少纠缠的表示。
此外,增加映射网络的深度可以提高 W \mathcal{W} W 中的图像质量和可分离性,这符合合成网络本质上有利于解缠结输入表示的假设。
有趣的是,在传统生成器前面添加映射网络会导致 Z \mathcal{Z} Z 严重丧失可分离性,但改善了中间潜在空间 W \mathcal{W} W 的情况,并且 FID 也得到改善。
这表明,当我们引入不必遵循训练数据分布的中间潜在空间时,即使传统的生成器架构也能表现得更好。

5. Conclusion

基于我们的结果和Chen等人的平行工作[5] ,越来越明显的是,传统的GAN生成器架构在各个方面都不如基于style的设计。
在已建立的质量度量标准方面是如此, 我们进一步相信,我们对高水平属性和随机效应的分离以及中间潜在空间的线性的研究将证明对改进GAN合成的理解和可控性的研究是富有成效的。

我们注意到,我们的平均路径长度度量可以很容易地在训练中用作正则化器,也许线性可分性度量的一些变体也可以用作正则化器。
总的来说,我们期望在训练过程中直接塑造中间潜在空间的方法将为未来的工作提供有趣的途径。

A. The FFHQ dataset

在这里插入图片描述

我们收集了一个新的人脸数据集 Flickr-Faces-HQ (FFHQ),由 70,000 张分辨率为 102 4 2 1024^2 10242 的高质量图像组成(图7)。
该数据集在年龄、种族和图像背景方面比 CelebA-HQ {Karras2017} 包含更多的变化,并且对眼镜、太阳镜、帽子等配饰的覆盖范围也更好。
从 Flickr 抓取(因此继承了该网站的所有偏见)并自动对齐 {Kazemi2014} 并进行裁剪。
仅收集经过许可的图像。使用各种自动过滤器来修剪集合,最后 Mechanical Turk 允许我们删除偶尔的雕像、绘画或照片。
我们已经在https://github.com/nvlabs/ffhq-dataset上公开了该数据集

B. Truncation trick in W \mathcal{W} W

在这里插入图片描述

如果我们考虑训练数据的分布,很明显,低密度区域的代表性较差,因此生成器可能难以学习。
这是所有生成建模技术中的一个重要的开放问题。
然而,众所周知,从truncated{Marchesi2017,Brock2018}}或其他shrunk{Kingma2018}采样空间中绘制潜在向量往往会提高平均图像质量,尽管会丢失一些变化。

我们可以遵循类似的策略。
首先,我们将 W \mathcal{W} W 的质心计算为 w ˉ = E z ∼ P ( z ) [ f ( z ) ] \bar{\mathrm{w}} = \mathbb{E}_{\mathrm{z}\sim P(\mathrm{z})}[f(\mathrm{z})] wˉ=EzP(z)[f(z)]
在 FFHQ 的情况下,这个点代表一种平均脸(Figure 8, ψ = 0 \psi=0 ψ=0)。
然后我们可以将给定 w \mathrm{w} w 与中心的偏差缩放为 w ′ = w ˉ + ψ ( w − w ˉ ) \mathrm{w}' = \bar{\mathrm{w}} + \psi(\mathrm{w} - \bar{\mathrm{w}}) w=wˉ+ψ(wwˉ),其中 ψ < 1 \psi < 1 ψ<1
虽然 Brock 等人{Brock2018} 观察到,即使使用正交正则化,也只有网络的一个子集适合这种截断,但即使不改变损失函数, W \mathcal{W} W 空间中的截断似乎也能可靠地工作。


  1. 少数为解纠缠研究而设计的人工数据集(例如,[39,18])用均匀频率将预定变量因素的所有组合制表 ,从而隐藏了问题。 ↩︎

猜你喜欢

转载自blog.csdn.net/qq_45934285/article/details/132077440