Deforming Autoencoders: Unsupervised disentangling of shape and appearance(附录)

本博客是论文 deforming autoencoders: unsupervised disentangling of shape and appearance 的附录部分的翻译,因为本人水平有限,难免有不准确的地方,还望读者不吝赐教。

论文正文翻译请见 Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance(变形自动编码器:无监督的解耦形状和外观)

A 体系架构细节

A.1 卷积编码器和解码器

在我们的实验中,输入图像的大小为64×64×Nc(Nc 代表通道数目,对于MNIST,Nc为1,对于面部,Nc为3),我们对卷积编码器和解码器使用相同的体系结构。

  • 编码器体系结构如下:
    Conv(32)-LeakyReLU-Conv(64)-BN-LeakyReLU-Conv(128)-BN-LeakyReLU-Conv(256)-BN-LeakyReLU-Conv(Nz)-Sigmoid
  • 解码器的体系结构如下:
    ConvT(256)-BN-ReLU-ConvT(128)-BN-ReLU-ConvT(64)-BN-ReLU-ConvT(32)-BN-ReLU-ConvT(32)-BN-ReLU-ConvT(Nc)-Threshold(0,1)
    其中:
    • Conv(n) :表示具有 n 个feature map 的卷积层
    • ConvT(n) : 表示具有 n 个 feature map 的反卷积层
    • BN:批处理归一化层
    • Nz: 潜在表示的维数
    • Nc:输出图像通道的个数

A.2 密集网-样式 编码器和解码器

对于密集网样式体系结构,我们采用密集卷积连接。

  • 编码器的体系结构如下:
    BN-ReLU-Conv(32)-DBE(32,6)-TBE(32,64,2)-DBE(64,12)-TBE(64,128,2)-DBE(128,24)-TBE(128,256,2)-DBE(256,16)-TBE(256,Nz,4)-Sigmoid;
  • 解码器的体系结构如下:
    BN-Tanh-ConvT(256)-DBD(256,16)-TBD(256,128)-DBD(128,24)-TBD(128,64)-DBD(64,12)-TBD(64,32)-DBD(32,6)-TBD(32,32)-BN-Tanh-ConvT(Nc)-Threshold(0,1)
    其中:
  • DBE(n,k):表示一个具有n 个通道,k个 3 × 3 卷积的密集块。
  • TBE(m,n,p):一个具有 m 个输入和 n 个输出通道的 1 × 1 卷积层 的编码器转换块。还包含一个大小为 p 的最大池化操作。
  • DBD(n,k):一个具有n 个通道,k个3 × 3 反卷积操作的密集解码块。
  • TBD(m,n):一个解码器块,具有 4 × 4 卷积,步长为2,padding 为 1 。具有m 个输入通道和 n 个输出通道。
    我们在表3和表4中描述了中间卷积运算的张量大小。
    在这里插入图片描述
    表3:卷积编码器和解码器体系结构中的中间卷积运算的张量大小。输出的形状表示为:h × w × C,其中 h 和 w 分别为 feature map 的高度和宽度,C 是通道数目 。
    在这里插入图片描述
    表 4 :密集编码器和解码器体系结构中的卷积运算的张量大小。输出的形状表示为:h × w × C,其中 h 和 w 分别为 feature map 的高度和宽度,C 是通道数目 。

B 消融研究

B.1 Z T Z_T 的维度

在本节中,我们显示了数字3的单个变形MNIST图像以及 MAFL 数据集中的 in-the-wild-faces(没有遮罩)上的实验结果(图片 14和15)。以此来演示由于 Z T Z_T 维度变化对结果的影响。
在这里插入图片描述
图片 14:改变潜在矢量的维数对纹理编码的影响:对于 Z T Z_T 的维度,(b)是0,(c)是1,(d)是 4,(f)是16 。 Z W Z_W 固定为128。当 Z T Z_T 是 0 维的时候,纹理编码器会被强制的为每一个图像生成一个相同的纹理(b)。当我们将 Z T Z_T 的尺寸增加到 1 ,纹理解码器学习将姿势与变化的笔触宽度对齐。当我们继续增加 Z T Z_T 的维度,网络为每一个图像学习一个更多样性纹理图(如 d,e,f 所示)。

在这里插入图片描述
图片15 :在 MAFL face 数据集上, 改变潜在向量 Z T Z_T 的维数对纹理的影响。 Z W Z_W 被固定为 128 。这有一定的问题,也提供了很多解决办法。如果 Z T Z_T 被设置为 0D 维度,纹理变成了“彩色像素袋”,变形后(随意的变形)可以重建图像。增加 Z T Z_T 的维度(从 4-32D)使网络生成对齐的纹理图和更加精确的外观。进一步增加 Z T Z_T (128-D)会降低对齐效果。

B.2 变形建模的方法

在本节中,我们演示使用不同的变形模块的效果。
我们首先显示 使用我们提出的 仿射+积分变形的方法从卷积解码器直接输出的非刚性变形场来进行非刚性变形建模 之间的其他比较(图16)。
我们使用面部图像可视化 仿射和积分变形模块 在网络中的效用(图17)。我们可以看到仿射变换可以处理全局姿势变化(图17-(b)),但不能处理局部非刚性变形。我们提出的积分变形模块以非刚性方式对齐人脸(图17-(c))。合并两个变形模块可改善非刚性对齐(图17-(d))。
在这里插入图片描述
图片16 :使用我们提出的仿射+积分变形模块(c)与使用从卷积解码器直接预测的变形字段(b)进行非刚性变形建模之间的比较。我们的非刚性变形建模可产生更好的重建效果和视觉上看似合理的纹理图像。

在这里插入图片描述
图片17:使用 in-the-wild 数据集的人脸时,仿射和积分扭曲模块在我们的网络中使用的效果。仿射变换可以处理全局姿势变化,如(b)所示,但不能进行局部非刚性变形-眼睛,鼻子或其他地标在解码的纹理图像中未对齐。所提出的积分变形模块以非刚性(c)但是夸张的方式对齐人脸,从而导致纹理图像中的污点,例如,眉毛周围。合并两个变形模块可改善非刚性对齐(d)。在此实验中,我们设置 Z A = 32 Z_A = 32 Z T = 32 Z_T = 32 Z W = 32 Z_W = 32

C 潜在流形插值

我们使用普通的自动编码器对学习到的流形进行插值来提供其它结果和比较。除了图13之外,我们在图18和图19中还提供了两组结果。与普通的自动编码器相比,我们的变形自动编码器不仅可以生成更好的重构,而且还可以学习更好的面部流形:在学习的潜在表示之间进行插值可生成更清晰,更逼真的面部图像。对于本实验,我们使用了A.1 部分中描述的卷积编码器和解码器体系结构。
在这里插入图片描述
图片13:第一行,来自MAFL测试集的样本图像。第二行,估计的变形场。第三行:图像反向转换为纹理空间。第四行:语义地标位置(绿色:地面真实地标位置,蓝色:估计的地标位置,红色:错误线)。

在这里插入图片描述
图片18:使用在MAFL数据集上学习的网络对学习的表示进行插值。与普通编码器相比,变形自动编码器可以为人脸学到更好的潜在表示。通过对潜在表示 Z T Z_T 和/或 Z W Z_W 进行插值,我们观察到姿势,形状和皮肤纹理的平滑过渡。插值结果也保留在面部流形上,与普通的自动编码器相比,生成的图像更逼真。
在这里插入图片描述
图片19:使用在MAFL 数据集上学习的网络对学习的表示进行插值。与普通的变形编码器相比,变形自动编码器可以更好的学习人脸的潜在表示。通过对潜在表示 Z T Z_T 和/ 或 Z W Z_W 进行插值,我们观察到姿势,形状以及皮肤纹理的平滑过渡。插值结果也保留在面部流形上,与普通的自动编码器相比,生成的图像更真实。

在这里插入图片描述
图片20:表情插值:在MUG面部表情数据集上训练,我们的网络能够解耦面部表情变形并以有意义的潜在表示形式编码此信息。通过将潜在变形表示从源图像(红色框)到目标(蓝色框)进行插值,我们的网络生成清晰的图像并在表情之间进行平滑的变形插值,如每一行所示,在这个实验中,每个对象的模型都是独立训练的,我们设置 Z T Z_T 的尺寸为0 (假设每个对象为单个纹理)和 Z W Z_W 的尺寸为128。

D 使用DAE 进行内在分解

在图 21 中,我们提供了使用 Intrinsic-DAE 对faces-in-the-wild 进行无监督内在解缠的其他结果。使用论文2.3 节中的体系结构和目标函数,网络学会将不同姿势和光照条件下的脸部(图21-(a)所示)带到标准视图(如图21-(d)所示)中,同时使用两个独立的解码器将阴影(如图 21-(b)所示)和反照率(图21-(c)所示。)分量,在标准视图下分开。借助从变形解码器获得的变形,我们可以将对齐的阴影和对齐的反照率变形到输入图像中的原始视图,如图21-(e,f)所示。

在图22中,我们使用Intinsic-DAE为面部图像的“改变照明方向”提供了其他结果。我们表明,即使没有显式的几何建模,我们也可以通过 对 [学习到的] [对于阴影的] 潜在表示 进行插值 来 模拟 图像中平滑且合理的照明方向变化,如图22-a-(4),b-(4)所示。

对于 Intrinsic-DAE,我们使用DenseNet体系结构作为编码器和解码器(附录 A.2)。用CelebA数据集中的200,000张图像的子集训练网络。潜在表示的维度是:反照率16,阴影16和变形场128。

在这里插入图片描述
图片21 : 使用Intrinsic-DAE在faces-in-the-wild 进行无监督的内在分解:网络学习将处于不同姿势和光照条件下的脸部(a)带入标准视图(d),并使用两个独立的解码器将标准视图中的阴影(b)和反照率(c)分量进一步分开。借助从变形解码器获得的变形,我们可以将对齐的阴影和对齐的反照率扭曲到其原始视图,如在输入图像(e,f)中一样。
在这里插入图片描述
图片22 : 通过对阴影的潜在表示插值进行照明操纵:Intrinsic-DAE 允许我们能够以无监督的方式解开给定面部图像的阴影的潜在表示。因此,操纵阴影分量将在输出图像中产生照明效果。在此实验中,我们从源到目标(与源具有相反照明方向的镜像)对阴影的潜在表示进行插值。在结果中,我们可以观察到,即使没有在网络中显式建模几何体,我们也可以在 阴影(a-(3), b-(3)) 和最终重构 (a-(4), b-(4)) 中模拟平滑的光照方向变化。

发布了54 篇原创文章 · 获赞 24 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_38863413/article/details/104088886