论文学习Unsupervised Person Image Synthesis in Arbitrary Poses

Unsupervised Person Image Synthesis in Arbitrary Poses任意姿态无监督的人的图像合成

Abstract

我们提出了一种新颖的方法来合成使用生成敌对学习的任意姿势的人的照片真实感图像。给定一个人的输入图像和二维骨架所代表的所需姿势，我们的模型在新姿势下渲染同一人的图像，合成输入图像中可见部分的新视图，并幻想那些看不到的部分。这个最近已经以监督的方式解决了问题[16,35]，即，在训练过程中，将新姿势下的地面真实图像提供给网络。我们通过提出完全无监督的策略来超越这些方法。我们通过将问题分解成两个主要子任务来解决这个具有挑战性的场景。首先，我们考虑一个姿态调节的双向生成器，将最初渲染的图像映射回原始姿态，因此可直接与输入图像进行比较，而无需诉诸任何训练图像。其次，我们设计了一种融合了内容和风格术语的新型损失功能，旨在制作出高感知质量的图像。在DeepFashion数据集上进行的大量实验表明，我们模型渲染的图像与完全监督方法获得的图像非常接近。

Figure1

给定一个人（左）的原始图像和由2D骨架（底行）定义的期望的身体姿势，我们的模型在该姿势（顶行）下生成新的照片逼真的图像。我们的主要贡献是用无标记数据来训练这种生成模型。

Introduction

能够通过单个图像以任意姿势生成人物逼真的新照片，将为不同领域的许多全新激动人心的应用打开大门，其中包括时尚和电子商务业务，摄影技术以自动编辑和动画静止图像，以及电影业等等。在没有明确地捕捉图像形成过程中涉及的基本过程（例如估计身体，头发和衣服的3D几何形状以及可见和闭塞部分的外观和反射模型）的情况下解决这个任务似乎是非常复杂的努力。尽管如此，通过直接从数据中学习生成模型，生成对抗网络（GANs）[3]已经在渲染新的逼真图像，例如人脸[8,22]，室内场景[32]和衣服[39]中显示出令人印象深刻的结果。最近，它们已被用于我们在本文中从单视图图像生成多视图人员图像时考虑的特定问题[16,35]。虽然结果显示这两种方法都是非常有前途的，他们受到相同的基本限制，因为方法是以完全监督的方式训练的方法，也就是说，他们需要用同一个人的图像对穿上完全相同的衣服并在两种不同的方式下训练构成。这需要来自特定的数据集，通常以时尚做主[15,36]。以无人监督的方式处理问题，可以利用无限量的图像并使用其他数据集，但不能提供多人视图图像。

更具体地说，为了避免需要不同姿势下同一个人的训练图像对，我们将问题分为两个主要阶段。首先，我们考虑一种姿态调节的双向对抗架构，在给定单个训练照片的情况下，最初在期望姿态下呈现新图像。这个合成的图像然后被回复到原来的姿势，因此是直接的媲美输入图像。其次，为了评估渲染图像的质量，我们设计了一个新的损失函数，这个函数在图像的三元组上计算 - 原始的，以所需的姿势渲染，并且渲染回原始姿势 - 合并内容和样式术语。该函数以姿势参数为条件，并强制渲染图像保留原始图像的全局语义内容以及其在关节位置的样式。

总结内容：

改论文是给定一个人的原始图像和2D骨架，期望得到任意状态下的身体姿态图像。我们使用生成方法，主要贡献是使用无标记数据来训练这种生成模型。为了解决这个问题，我们将其分成两个子问题。1.姿态调节的双向生成器，可以将渲染后的图像映射回原始姿态，因此可以直接与输入图像进行对比，而无需任何训练网络。2.设计了一种融合了内容和风格的新型损失函数，能制作出高感知质量的图像。这个论文主要应用了Cycle-GAN的思想。

一个基本知识是GAN （生成对抗网络）是基于博弈的生成模型。它们同时训练生成合成样本（在我们的上下文中呈现的图像）的生成器网络和识别器网络，该识别器网络被训练以区分生成器的输出和真实数据。

网络由四部分组成。1.生成器G，给定一个人在Po姿态下的图像，输出该人在Pf姿态下的图像。在网络中，两次用到G，从Po到Pf,再从Pf到Po。在网络中直接和姿态器一起喂入训练（N+3）*H*W 2.姿态回归器，用于估计图像中2D关节位置。每个姿态用N=18个二位像素坐标组成，每个坐标对应生成的一张概率密度图，该坐标对应值为1，其余部分是一个以它为峰值方差为0.03的高斯分布。所以大小为N*H*W，代表图像I中关节的位置。3.判别器D 用于判别图像是否是真的，来源于PatchGan网络，将输入I，pixel2pixel ,将图像变成矩阵26*26，这样减少了计算量。4.损失函数

在损失函数部分，是由三个部分组成的，第一个是图像对抗损失Image Adversarial Loss，注意这一部分有两个，Po到Pf,Pf到Po

第二部分是姿态回归i损失ConditionalPoseLoss. 这个是计算姿势在映射过程中的损失

第三部分是特征损失Identity Loss，其中又分成两个子损失，分别是内容损失 content 和风格损失style ，这部分比较的是Po姿态下的信息，和Po到Pf,再到Po下的PO信息（符号打不出来，将就看）在content上我们比较的是语义信息而不是像素级上的信息，因为后者计算量大。

在处理style方面，作者别出心裁。风格显示的是原始图像和渲染图像的纹理特征，姿势块Xpo,i被定义为

总体损失为：

实验比较了一下出错的原因，左上是没有正确映射，黑裤子少了长度，被转移到小腿上，右上原始图像的表面在新生成的图像中没有被完全被洗掉，坐下几何误差，原始图像的姿态没有正确传递到目标图像，右下原始图像的收被映射成纹理

实验还引入了背景，发现需要更复杂的数据库和更复杂的损失函数。

这篇论文adv:用到了很多前人的成果，GAN（这是我第一次看GAN相关内容）,CycleGAN等等，对于整个loss考虑的很到位。以及对style loss的处理过程。

论文学习Unsupervised Person Image Synthesis in Arbitrary Poses

猜你喜欢