A Style-Based Generator Architecture for Generative Adversarial Networks 翻译3&4

3.基于样式的生成器的属性

我们的生成器架构使得通过对样式进行特定比例的修改来控制图像合成成为可能。我们可以将映射网络和仿射变换视为从学习分布中为每个样式提取样本的方法，而将合成网络视为基于样式集合生成新图像的方法。每个样式的效果都在网络中本地化，即修改样式的特定子集可能会影响只有图像的某些方面。

为了了解这种局部化的原因，让我们考虑AdaIN操作（公式1）如何首先将每个信道规格化为零平均值和单位方差，然后才根据样式应用比例和偏差。新的每通道统计信息，如样式所示，修改了特征对于后续卷积操作的相对重要性，但由于标准化，它们不依赖于原始统计信息。因此，在被下一个AdaIN操作覆盖之前，每个样式只控制一个卷积。

3.1 样式混合

图3.从它们各自的隐码（源A和源B）生成两组图像；其余图像通过从源B复制指定的样式子集并从源A获取其余图像生成。复制与粗略空间分辨率（42–82）相对应的样式会带来高层次的方面，例如姿势、一般发型、脸型和眼镜来自源B，而所有颜色（眼睛、头发、灯光）和更精细的面部特征都类似于A。如果我们从B复制中等分辨率（162–322）的样式，我们将从B继承较小比例的面部特征、发型、眼睛打开/关闭，而姿势、一般脸型和眼镜来自A被保存。最后，从B复制精细的样式（642-10242）主要带来颜色方案和微观结构。

为了进一步鼓励样式的局部化（减小不同层之间样式的相关性），本文对生成器使用混合正则化。对给定比例的训练样本（随机选取）使用样式混合的方式生成图像。在训练过程中，使用两个随机隐码z而不是一个，生成图像时在合成网络中随机选择一个点（某层），从一个隐码切换到另一个隐码(称之为样式混合)。具体来说，通过映射网络运行两个隐码z1、z2，并让对应的w1、w2控制样式，使w1在交点前应用，w2在交点后应用。这种正则化技术防止网络假设相邻样式是相关的，随机切换确保网络不会学习和依赖于级别之间的相关性。

表2显示了如何在训练期间启用混合正则化，从而在测试时间混合多个缓冲器的情况下，通过改进的FIDs来显著地改进定位。图3给出了通过在不同尺度上混合两个隐码合成的图像的例子。我们可以看到，样式的每个子集都控制图像的有意义的高级属性。

表2.FIDs在FFHQ中通过对不同比例的训练实例进行混合正则化训练。在这里，我们通过随机1...4和他们之间的交叉点对训练后的网络进行压力测试。混合正则化显著提高了对这些不利操作的耐受性。标签E和F参考表1中的配置。

（a）生成图像（b）随机变化（c）标准差

图4.随机变化的例子。（a）两张生成的图像。（b）放大输入噪声的不同实现。虽然整体外观几乎相同，但单个头发的位置却非常不同。（c）超过100种不同实现的每个像素的标准偏差，突出显示图像的哪些部分受到噪声的影响。主要区域是头发、轮廓和部分背景，但眼睛反射也有有趣的随机变化。全局方面，如身份和姿势不受随机变化的影响。

3.2 随机变化

人像中有许多方面可以被认为是随机的，例如头发、胡茬、雀斑或皮肤毛孔的确切位置。只要它们遵循正确的分布，任何这些都可以随机化而不影响我们对图像的感知。

让我们考虑一下传统的生成器是如何实现随机变化的。考虑到网络的唯一输入是通过输入层，网络需要发明一种方法，在需要时从早期激活中生成空间变化的伪随机数。这就消耗了网络容量，并且隐藏了生成信号的周期性是很困难的，而且并不总是成功的，这一点可以从生成的图像。我们的架构通过在每次卷积后添加每个像素噪声。

图5.我们生成器不同层的噪声输入的影响。（a）噪波应用于所有层。（b）无噪声。（c）仅细层噪声（642-10242）。（d）仅限（42-322)层的噪声。我们可以看到，人为地忽略噪声会导致没有特色的“绘画”外观。粗糙的噪声会导致头发大规模卷曲并出现较大的背景特征，而精细的噪声则会导致头发更细的卷曲、更细的背景细节和皮肤毛孔。

图4显示了相同底层图像的随机实现，使用我们的生成器生成的具有不同噪声实现的图像。我们可以看到，噪声只影响随机方面，留下完整的整体组成和高层次的方面，如身份。图5进一步说明了将随机变化应用于不同层子集的效果。由于这些效果最好在动画中看到，请参考随附的视频，以演示更改一个层的噪声输入如何导致匹配比例的随机变化。

我们发现有趣的是噪声的影响在网络中呈现出紧密的局部化。我们假设在生成器中的任何一点上，都有尽快引入新内容的压力，而我们的网络创建随机变化的最简单方法是依赖提供的噪声。每一层都有一组新的噪声，因此，没有动机从早期激活中产生随机效应，从而导致局部效应。

(a) 训练集中特征的分布（b）从Z到特征的映射（c）从W到要素的映射

图6.具有两个变化因素（图像特征，如男性气质和头发长度）的说明性示例。（a）缺少某些组合（如长发雄性）的示例训练集。（b）这迫使从Z到图像特征的映射变为曲线，以便禁止的组合在Z中消失，以防止无效组合的采样。（c）从Z到W的学习映射能够“撤消”大部分扭曲。

3.3 将全局作用与随机性分离

前面的部分以及随附的视频表明，虽然样式的更改具有全局效果（更改姿势、身份等），但噪声仅影响无关紧要的随机变化（不同梳理的头发、胡须等）。这一观察结果与风格转换文献一致，其中已经确定，空间不变的统计数据（Gram矩阵、信道平均值、方差等）可靠地编码图像的风格[19，36]，而空间变化的特征编码特定的实例。

在我们的基于样式的生成器中，样式会影响整个图像，因为完整的特征映射会按相同的值缩放和偏移。因此，可以连贯地控制全局效果，如姿势、照明或背景样式。同时，噪声独立地添加到每个像素，因此非常适合于控制随机变化。如果网络试图控制，例如，使用噪声的姿势，这将导致空间上不一致的决定，然后将被判别器惩罚。因此，网络学会了在没有明确指导的情况下，适当地使用全局和本地信道。

4.解耦研究

解耦有各种定义[50，46，1，6，18]，目标是使隐空间（latent space）由线性子空间组成，即每个子空间（每个维度）控制一个变异因子（特征）。但是隐空间Z中的各个因子组合的采样概率需要与训练数据中响应的密度匹配，就会产生纠缠。如图6所示，这排除了与典型数据集和输入潜在分布完全分离的因素。

我们的生成器结构的一个主要优点是中间隐藏空间W不需要根据任何固定分布进行采样；它的采样密度是由可学习的映射网络f(z)得到的，使变化的因素变得更加线性。本文假设，生成器基于解耦的表示比基于纠缠的表示应该更容易产生真实的图像（若在FID变小的同时，隐空间耦合度变小，则可以得证）。因此，我们期望训练在无监督的情况下（即，当不预先知道变异的因素时）产生较少纠缠的W[9、32、45、7、25、30、6]。

不幸的是，最近为量化解耦而提出的度量标准[25、30、6、18]需要一个将输入图像映射到隐码的编码器网络。这些指标不适合我们的目的，因为我们的基线GAN缺乏这样的编码器。虽然可以为此目的添加额外的网络[7、11、14]，但我们希望避免将精力投入到不属于实际解决方案一部分的组件上。所以本文提出了两种新的量化解耦的方法，它们都不需要编码器，所以对于任何数据集和生成器都是可计算的。

4.1 感知路径长度（Perceptual path length）

正如Laine[34]所指出的，对隐空间向量进行插值会在图像中产生非线性变化。比如，在所有端点中缺失的特征可能会出现在线性插值路径的中间。这表明隐空间是耦合的，变化因子没有被恰当的分开。为了量化这种影响，我们可以测量当我们在隐空间中进行插值时，图像所经历的剧烈变化。直观地说，一个欠弯曲的隐空间应该比一个高度弯曲的隐空间在感知上更平滑地过渡。

作为度量的基础，我们使用基于感知的成对图像距离[59]，该距离计算为两个VGG16[54]嵌入之间的加权差，其中权重是合适的，以便度量与人类感知相似性判断一致。将两个隐空间之间的插值路径细分为小段，感知总长度定义为每段感知差异的总和，如图像距离度量所报告的。

表3.FFHQ中不同生成器结构的感知路径长度和可分性得分（越低越好）。对于传统的网络，我们在Z中执行测量，对于基于样式的网络，我们在W中执行测量。使网络抵抗风格混合似乎扭曲了中间的隐空间W有些。我们假设，混合使得W更难以有效地编码跨多尺度变化的因素。

表3显示，对于具有噪声输入的基于样式的生成器，此全路径长度明显较短，这表明W在感知上比Z更线性。然而，此测量实际上略微偏向于输入隐空间Z。如果W确实是Z的一个分离且“平坦”的映射，则它可能包含不在输入流形上的区域，并且因此被生成器严重重构，甚至在从输入流形映射的点之间，而输入隐空间Z根据定义没有这样的区域。因此，如果我们将度量限制在路径端点，即t∈{0，1}，我们应该在lz不受影响的情况下获得较小的lw。这确实是我们在表3中观察到的情况。

表4.FFHQ中映射网络的作用。方法名中的数字表示映射网络的深度。我们看到FID、可分性和路径长度都得益于映射网络，这对基于样式的和传统的生成器体系结构都适用。此外，较深的映射网络通常比较浅的映射网络表现更好。

表4显示了映射网络如何影响路径长度。我们发现，传统的和基于样式的生成器都受益于具有映射网络，并且附加深度通常会改进感知路径长度以及FIDs。有趣的是，虽然lw在传统的生成器中得到了改进，但lz却变得更糟，这说明了我们的观点，即输入隐空间确实可以被任意地纠缠在GANs中。

4.2 线性可分性（linear separability）

如果一个隐空间是充分解耦的，应该能够找到与每个变化因子对应的方向向量。我们提出了另一种度量方法来量化这种效果，测量通过线性超平面将隐空间点分割成两个不同的集合的程度，使每个集合对应于图像的特定的二元属性。

为了对生成的图像进行标记，我们训练辅助分类网络以获得许多二进制属性，例如，区分男性和女性面孔。在我们的测试中，分类器具有与我们使用的判别器相同的架构（即与[28]中的相同），并且使用保留原始CelebA数据集中可用的40个属性的CelebA HQ数据集进行训练。为了测量一个属性的可分性，我们生成了200000个z~P（z）图像，并使用辅助分类网络对它们进行分类。然后根据分类器的置信度对样本进行排序，去掉置信度最低的一半，得到100,000个已知类别的隐空间向量。

对于每个属性，拟合一个线性SVM来预测标签-基于传统的或样式的隐空间点w并且根据这个超平面对这些隐空间点进行分类。用条件熵H(Y |X)度量超平面将点划分为正确类别的能力，X是SVM预测的类别，Y是预先训练好的辅助分类器确定的类；因此，根据SVM确定样本在超平面的哪一边，条件熵告诉我们需要多少额外的信息来确定样本的真实类别。直觉上，如果隐空间中的变化因子是耦合的，那么用超平面来分离样本点将会更加困难（需要更多的额外信息），产生高的条件熵。较低的值表示易于分离，因此解耦程度更大。

我们最后的可分性计算公式，其中i列举了40个属性。与初试分数[49]类似，取幂是为了将值从对数域变换为线性域，便于进行比较。

表3和表4显示W始终比Z更好的可分离性，这表明了更少的纠缠表示。此外，增加映射网络的深度可以提高图像质量和W中的可分性，这与合成网络内在地支持等纠缠输入表示的假设是一致的。有趣的是，在传统的生成器前面添加一个映射网络会导致Z中的可分性严重损失，但会改善中间隐空间W中的情况，并且FID也会得到改善。这表明，即使是传统的生成器结构，当我们引入一个不必遵循训练数据分布的中间隐空间时，也会表现得更好。

竹篓有个天

发布了40 篇原创文章 · 获赞 3 · 访问量 7572

私信关注

A Style-Based Generator Architecture for Generative Adversarial Networks 翻译3&4

猜你喜欢