【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks

Supplemental Material:A Style-Based Generator Architecture for Generative Adversarial Networks

一、前言

【Paper】 > PyTorch版【Code】 > 官方TensorFlow版【Code】 补充材料见Supplemental Material
StyleGAN正文精读在【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks

1. Hyperparameters and training details

我们以 Karras et al.{Karras2017} 的渐进式 GAN 的官方 TensorFlow{Tensorflow} 实现为基础,我们从中继承了大部分训练细节。https: //github.com/tkarras/progressive_grinding_of_gans这个原始设置对应于论文中表1的配置 A。
特别是,我们使用相同的{鉴别器架构}、分辨率相关的小批量大小、Adam{Adam} 超参数、和生成器的指数移动平均值。我们为 CelebA-HQ 和 FFHQ 启用镜像增强,但为 LSUN 禁用它。
我们在配备 8 个 Tesla V100 GPU 的 NVIDIA DGX-1 上的训练时间大约为一周。

对于我们改进的基线(表1 中的 B),我们进行了一些修改以提高整体结果质量。
我们用双线性采样替换两个网络中的最近邻上/下采样,这是通过在每个上采样层之后和每个下采样层之前使用可分离的 2 n d 2^{nd} 2nd 阶二项式滤波器对激活进行低通滤波来实现的{zhang2019}}。
我们以与 Karras et al.{Karras2017} 相同的方式实现渐进式增长,但我们从 8 2 8^2 82 图像而不是 4 2 4^2 42 开始。
对于 FFHQ 数据集,我们从 WGAN-GP 切换到非饱和损失 {Goodfellow2014} 和 R 1 R_1 R1 正则化 {Mescheder2018} 使用 γ = 10 \gamma=10 γ=10
我们发现,与 WGAN-GP 相比, R 1 R_1 R1 的 FID 分数持续下降的时间要长得多,因此我们将训练时间从 1200 万张图像增加到 2500 万张图像。
我们对 FFHQ 使用与 Karras et al.{Karras2017} 相同的学习率,但我们发现将 51 2 2 512^2 5122 102 4 2 1024^2 10242 的学习率设置为 0.002 而不是 0.003 会带来更好的稳定性于CelebA-HQ而言。

对于我们基于样式的生成器(表1 中的 F),我们使用 Leaky ReLU {Maas2013} 和 α = 0.2 \alpha=0.2 α=0.2 以及所有层的均衡学习率{Karras2017}。
我们在卷积层中使用与 Karras et al.{Karras2017} 相同的特征图计数。
我们的映射网络由8个全连接层组成,所有输入和输出激活的维数-----包括 z \mathrm{z} z w \mathrm{w} w------为512。
我们发现,增加映射网络的深度往往会导致高学习率下的训练不稳定。
因此,我们将映射网络的学习率降低了两个数量级,即 λ ′ = 0.01 ⋅ λ \lambda' = 0.01\cdot\lambda λ=0.01λ
我们使用 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1) 初始化卷积层、全连接层和仿射变换层的所有权重。
合成网络中的常数输入被初始化为一。
偏差和噪声缩放因子都初始化为零,但与 y s \mathrm{y}_s ys 相关的偏差除外,我们将其初始化为 1。

我们的可分离性度量(文章第4.2节 )使用的分类器与我们的判别器具有相同的架构,除了小批量标准差{Karras2017}被禁用。
我们使用 1 0 − 3 10^{-3} 103 的学习率、8 的小批量大小、Adam 优化器和 150,000 张图像的训练长度。
分类器独立于生成器进行训练,并且使用相同的约 40 个分类器(每个 CelebA 属性一个)来测量所有生成器的可分离性度量。
我们将发布预先训练的分类器网络,以便可以重现我们的测量结果。

我们在网络中不使用批量归一化 {Ioffe2015}、谱spectral归一化 {Miyato2018B}、注意力机制 {Zhang2018sagan}、dropout {srivastava2014} 或像素特征向量归一化 {Karras2017}。

2. Training convergence

在这里插入图片描述

图 1 显示了在使用 FFHQ 数据集训练我们的配置 B和 F 期间,FID 和感知路径长度指标如何演变。
R 1 R_1 R1 正则化在两种配置中都处于活动状态时,FID 随着训练的进行而继续缓慢减少,
促使我们选择将训练时间从 1200 万张图像增加到 2500 万张图像。
即使训练达到了完整的 $ 1024^2$ 分辨率,缓慢增加的路径长度表明 FID 的改进是以更加纠缠的表示为代价的。
考虑到未来的工作,这是一个有趣的问题,这是否是不可避免的,或者是否有可能在不影响 FID 收敛性的情况下鼓励更短的路径长度。

3. Other datasets

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

图 2 、3 和 4 显示了 LSUN 的Bedroom ,汽车 和 猫 分别的一组未经整理的结果 。
在这些图像中,我们使用了 Appendix B 中的截断技巧,其中 ψ = 0.7 \psi=0.7 ψ=0.7 的分辨率为 4 2 − 3 2 2 4^2-32^2 42322。随附的视频提供了风格混合和随机变化测试的结果。从其中可以看出,在 Bedroom 的情况下,粗略样式基本上控制相机的视角,中间样式选择特定的家具,而精细样式处理颜色和材料的较小细节。
在 Cars 中,效果大致相似。随机变化主要影响 Bedroom 中的织物、Cars 中的背景和头灯以及 Cats 中的毛皮、背景,以及有趣的是爪子的位置。
有点令人惊讶的是,汽车的车轮似乎永远不会根据随机输入旋转。

这些数据集使用与 FFHQ 相同的设置进行训练,训练时间为 Bedroom 和 Cats 的 70M 图像,以及 Cars 的 46M 图像。我们怀疑 Bedroom 的结果开始接近训练数据的极限,因为在许多图像中,最令人反感的问题是从低质量训练数据继承的严重压缩伪影。 Cars 具有更高质量的训练数据,也允许更高的空间分辨率( 512 × 384 512\times384 512×384 而不是 25 6 2 256^2 2562),而CATS仍然是一个困难的数据集,因为在姿态、缩放级别和背景方面存在很大的内在差异。

猜你喜欢

转载自blog.csdn.net/qq_45934285/article/details/132119007