以下链接是个人关于Liquid Warping GAN(Impersonator)-姿态迁移，所有见解，如有错误欢迎大家指出，我会第一时间纠正。有兴趣的朋友可以加微信：a944284742相互讨论技术。若是帮助到了你什么，一定要记得点赞！因为这是对我最大的鼓励。
风格迁移1-00：Liquid Warping GAN(Impersonator)-目录-史上最新无死角讲解

Abstract

我们仅仅使用了一个框架，就处理human motion imitation（人类动作模仿）, appearance transfer（外观转换）,以及 novel view synthesis（新视觉生成），并且训练其中任意一个模型，就完成这3个任务。一些方法利用2D的keypoints（关键点）或者pose（姿态）去估算人类身体的结构，然而他们只能表现了位置信息，没有能力去体现一个人的形状（高矮胖瘦）以及四肢的旋转。在这篇论文中，我们提到了一个3D身体恢复的模型，去处理姿态和形状的问题，他不仅能表达出位置和旋转信息，并且还能描述出个人的形状以及个性化。
为了保护原图的信息，比如纹理，风格，颜色，和人脸身份等细节，我们提出了一个Warping GAN(扭曲GAN) 以及Liquid Warping Block (LWB)，他能在特征空间和原图之间传递信息，并且能够使多张参考图像合成一张图像。为了更好的描述原图的身份ID，使用的一个auto-encoder（自动编码）的降噪卷积提取原图的特征。
我们提出的模型，能够很灵活的支持多个sources img的warping（扭曲）。另外，我们还构建的一个新的数据集Impersonator (iPER)，后续的实验对比，如动作模仿，外观转换，新视角生成，已经存的先进模型，以及我们的模型，都是在这个数据的基础上进行实验的。

1. Introduction

人类图像合成，包含了动作模仿，外观转换，新视角合成。他们有巨大的潜在运用价值，如动漫角色，虚拟换衣服等等。都是给定一张source human image以及一张 reference human image。动作模仿的目标是把source human image的动作，变换成reference human image的动作，外观转换是交换两张图像中人物的外观（如衣服，裤子，鞋子等，但是不包含脸部），新视角合成，就是对视角进行转换，比原图是一张正面图，去合成他的背面图，展示如下：
在这里插入图片描述
在图像合成领域，之前处理上面介绍的三个任务，都是分开来的，换而言之就是一个模型很难同时适用于3种任务。最近，GAN网络额出现，在三个任务上，都能达到一个很好的效果，比如我们这里把动作模仿作为一个例子，做了一些总结，如下图所示：
在这里插入图片描述
图示翻译：现在有三种把原图信息传播到目标图像的方法：a 是最早的串联方式，即把原图，原条件，和目标条件一起并入颜色通道。b 和 c 是进行纹理或者特征提取，然后把提取到信息传入到目标条件之中。

在早期的工作中，如上图的a所示，source image（带有姿态条件信息）和target 姿态条件被串接起来，然后被送入网络对抗神经网络进行训练，得到一张预期姿态的图像。然而，之间拼接，不考虑空间布局，对于生成器来说，很难再正确的位置上生成想要的像素，因此他得到的图像总是模糊不清的，经常丢失原图的身份信息。后来受到到the spatial transformer networks（STN）的启发，一个纹理扭曲的方法被提出，如上图的 b 所示，这种方法，他首先拟合一个从source pose 到 reference poses 的反射矩阵，然后使用 STN 利用source image，以及反射矩阵的信息，把source img 扭曲成reference pose 的图像，然后基于扭曲之后得到的图像，去生成目标图像。对于Texture warping（纹理扭曲），其不能很好地保留原图的细节信息，比如衣服颜色，身份ID，个性风格等，因为生成网络在经过几次下采样操作之后，选择性的丢失了这些信息。在此期间，同时出现了一些方法，提出了深度特征的扭曲，而不是直接在原图上进行图像扭曲，如上图的 c 所示，叫做feature warping，但是这种方法，特征的提取是通过编码的方式，这种扭曲很难描述出图像的细致特点，所以生成图像一般都是低逼真度，或者模糊的图像。
之前的方法，生成的图像看起来不逼真，主要有以下三个原因。1.网络捕获不同衣服的纹理，风格，颜色以及人脸身份是十分弱的。2.关节和可变形人体导致空间几何的变化十分巨大。3.所有的方法，都不能处理多个source 的输入，比如外观转换，衣服裤子分别来自不同的图像。

在这篇论文中，为了保护源信息，如衣服，风格，身份ID等，我们提出了Liquid Warping Block (LWB)，其从三个方面解决了这些问题：1.使用降噪的自动编码网络，去提取有用的特征代表souce img的信息，2.为了保护特征细节，每个局部的源特征，通过我们提出的LWB进入到全局特征。3.我们提出的方法是支持多个source warping的，比如来自一张source img的头，另外一张source img的身体，一起去聚合成一个全局的特征stream。

另外，现在存在的方法主要依赖 2D pose，dense pose 以及body parsing，这些方法值关心到了位置布局，忽略了人物个性形（胖矮高瘦）状以及四肢（关节）的旋转。但是在图片合成时，后者的重要性或许比前者更为重要，比如，在一种极端的情况，使用基于2D（或者dense pose ，body parsing）的方法，让一个比较高的人，去模仿一个比较矮的人，将不可避免的去改变这个比较高的人的大小，问题展示如下图Figure 6所示：
Figure 6
在这里插入图片描述
原图注释：上图时候其他的方法，以及我们的方法，在iPER上面的对比，2D pose方法pG2 , DSC ，SHUP 不能保护原图衣服，面部ID等信息，我们的方法很用蓝色或者红色框去突出细节。

为了克服这个缺点，我们使用了一个 parametric statistical human body model（SMPL-自行百度了解），能使人体的姿态和形状脱离开来，该网络的输出是一个3D mesh （带颜色），而不是一个关节和姿态的布局。同时，两个3D triangulated meshes 之间的转换流，是很容易被计算出来的，并且相对于使用关键反射矩阵的方法，其更加准确。

基于 SMPL model 和 Liquid Warping Block (LWB)，我们的方法进一步扩展了其他的任务，包含了人物动作模仿，外观转换，新视角合成。我们方法的提出，主要做了以下贡献：
1.提出了LWB去减少原图信息损失，比如纹理，颜色以及面部ID等。
2.通过基于LWB的对抗神经网络，以及3D parametric model，我们的方法集成了一个统一的框架，可以同时完成动作模仿，外貌转换以及新视角生成。
3.我们创建了一个动作模仿的数据集。

2. Related Work

Human Motion Imitation. 最近很多的方法都是基于条件生成网络（CGAN),或者变异的自动编码网络。他们的关键技术在于使用带有原姿态（2D key-points）的图像，当做GANs的输入，去生成目标图像，这些方法的不同点，主要在于loss定义的不同，一个U-Net 生成器是使用由粗到细的策略去生成256x256的图像，Si等人提出一个多级对抗loss，并且分别生成前景和背景，或者不同的身体部位。Neverova 等人使用dense correspondences dense（密集对其DensePose）的方法代替了2D 关键点的方法。Chan等人使用pix2pixHD 结构去生成一个比较逼真的目标图像，再后来Wang 等人，扩展到了视频生成，Liu 等人提出了人体动作的行为视频渲染。然而，他们的工作仅仅是训练了来自每个人2D姿态的映射（现实世界），对于每个人都需要去训练他们自己的模型，这样很大程度上，限制了他们的利用

Human Appearance Transfer 人体外观建模或者转换是一个比较热门的话题，尤其是在虚拟试穿领域，计算机图像建模的方法或者深度学习的利用。基于图像建模的方法，首先是使用衣服，以及衣服扫描仪或者多个摄像头组合评估3D human mesh的细节，然后基于细致的3D mesh 进行衣服外观的交换，尽管这些方法能获得一个比较好的效果，但是他们的消耗比较巨大，容易受到环境的干扰。最近在很多实用深度神经网络的方法，如SwapNet 首先学习一个基于服装位置引导的合成网络，然后将服装解析结果与纹理特征从源图像反馈到编解码器网络中，生成所需要的服装图像。还有的使用3D形状模型去结合深度学习，训练出一个能推断出图像看不见图像位置，的顶点的模型。

Human Novel View Synthesis. 同一目标的新视角合成，现在存在的方式，核心的步骤是去拟合从原图视角到目标视角的对应关系图，有的方法是利用CNN去预测一个外观，然后基于预测的外观从source image复制像素到新的目标图像，其在类似于汽车这种刚性的物体上，取得了比较好的效果。接下来的一些相关工作提出了基于外观流，使用GAN去推测看不见的纹理信。 Zhu 等人基于外观流的方法，对于用在可变形的物体上，效果是比较差的，比如人的身体。，为了新视角图的合成，他们提出了一个appearance-shape-flow的策略。除此之外Zhao等人设计了一个GAN基于coarse-to-fine 的方法提出一种高分辨率视角合成的方法。

3. Method

我的Liquid Warping GAN包含了3个步骤，body mesh recovery，flow composition以及带有Liquid Warping Block (LWB)的GAN module。对于不同的任务，他们的训练方法是相同的，其中的任意一个任务训练好了，都能够适用于其他的任务。这里，我们使用动作模仿作为一个例子来讲解，如下图Fig. 3所示：
Fig. 3
在这里插入图片描述
图示翻译：对于我们训练的方法，我们随机选取来自同一个视频的两帧图片，注意，他们其中的一张为source image $I_s$ ,另外一种为reference image $I_r$ 。（a）一个身体网络恢复模型会估算每一帧图像的 3D mesh，并且对他们进行渲染，得到 $C_s,C_t$ .（b）composition module（这个合成模型）首先基于两个对应的 $M_r,M_s$ 计算他们之间的转换矩阵T，然后将从原图分离出来的前景图 $I_{ft}$ 以及背景图 $I_{bg}$ ，基于转换矩阵 $T$ 扭曲 source image 生成一个呗扭曲的图像 $I_{syn}$ 。（c）在最右边的GAN模型，其包含了3个 streams，他们分别是，通过 $G_{BG}$ 生成背景图 $\hat I_s$ ,并且结合通过 $G_{TSF}$ 生成的结果，合成 $\hat I_t$ 。为了保留图片的细节信息，我们提出了一个新异的Liquid Warping Block (展示在 Fig. 4)，他会在几个成广播 $G_{BG}$ 的信息进入到 $G_{TSF}$ 。

输入的图像source image使用 $I_s$ ,reference image使用 $I_r$ 表示。首先mesh recovery module会去估算 $I_s$ 以及 $I_r$ 的3D mesh，并且把他们渲染成 $G_s$ 与 $G_t$ ,下一步，composition module会基于前面获得的 $G_s$ 以及 $G_t$ 计算转换矩阵 $T$ ，sourece img $I_s$ 被分解成前景 $I_{ft}$ 以及通过mask获得的背景 $I_{bg}$ ,并且基于转换矩阵 $T$ 扭曲成 $I_{syn}$ , 最后的GAN模型，其包含了3个 streams（上图注释翻译比较详细，就不重复了）

3.1. Body Mesh Recovery Module

如Fig. 3的（a）所示，送入source img $I_s$ 以及 reference img $I_r$ ,

江南才尽，年少无知！

发布了224 篇原创文章 · 获赞 733 · 访问量 14万+

私信关注

风格迁移1-04：Liquid Warping GAN(Impersonator)-白话给你讲论文-翻译无死角（1）

Abstract

1. Introduction

2. Related Work

3. Method

3.1. Body Mesh Recovery Module

猜你喜欢