姿态转移---Liquid Warping GAN

一、核心目标

在统一的框架下实现（三个任务）
1）人体动作转移；
2）外观转移，比如衣服等；
3）新颖的视图合成（人体不同角度的展现）。
对应三个任务

二、创新点

为了保留源信息，例如纹理，样式，颜色和脸部身份，提出了一种带有液体翘曲块（LWB）的液体翘曲GAN，它可以在图像和特征空间中传播源信息。具体来说，通过消噪卷积自动编码器提取源特征，以很好地表征源身份。

三、提出原因（根据目前的挑战）

现有方法挑战
1）难以在其网络体系结构中捕获和保留各种质地，样式，颜色和高结构化面部特征的衣服；
2）铰接且可变形的人体导致较大的空间布局和任意姿势操作的几何变化；
3）所有这些方法都不能处理多个源输入，例如在外观转换中，不同部分可能来自不同源人。
本文解决措施
1）提出本文创新点的方法LWB；LWB来从三个方面解决源信息的丢失：
　（1）使用去噪卷积自动编码器提取保留源信息的有用功能，包括纹理，颜色，样式和面部识别；
　（2）LWB将每个局部部分的源要素合并到全局要素流中，以进一步保留源详细信息；
　（3）支持多源变形，例如在外观转换中，从一个源变形头部的特征，从另一个源变形主体的特征，并　　　聚合为全局特征流。这将进一步增强每个源部分的本地身份。
2）使用参数统计人体模型SMPL将人体分解为姿势（关节旋转）和形状。它输出3D网格（不带衣服），而不是关节和零件的布局。此外，通过匹配两个3D三角网格之间的对应关系，可以很容易地计算出变形流；
3）结合１）和２）解决挑战３。

四、主要工作

1）提出了一个LWB来传播和解决图像和特征空间中源信息（例如纹理，样式，颜色和面部识别）丢失；
2）通过利用LWB和3D参数模型的优势，方法是一个统一的框架，可进行人体运动模仿，外观转换和新颖的视图合成；
3）为这些任务（尤其是视频中的人体运动模仿）建立了数据集，并发布了所有代码和数据集。

五、具体工作

在这里插入图片描述

图5.1

5.1、身体三维建模

本步主要完成：预测运动姿态和形状参数以及每个人物的3D网格。
给定源图I_s和I_r和参考图像后，使用HMR作为3D姿态和形状估计器。
在HMR中，首先使用ResNet-50将图像编码为2048维特征，然后使用3D迭代器网络SMPL预测姿态θ 和形状β，以及弱视化相机K。微分函数M(θ ,β)通过N_V顶点和N_f面对三角网格进行参数化。
最后得到源图重建{K_s, θ_s , β_s, M_s}和参考图重建{K_r, θ_r , β_r, M_r}。

5.2、流合成模型

本步主要完成：前背景分离
因此，我们通过弱透视相机将源的顶点V_s投影到2D图像空间中。然后，我们计算每个网格面的重心坐标，并获得f_s。接下来，我们通过匹配源对应图与其网格面坐标f_s与参考对应图之间的对应关系来计算转换流T。这里H*W是图像的大小。因此，通过基于C_s对源图像I_s进行遮罩，可以得出正面图像I_ft和遮罩的背景图像I_bg。最后，我们通过变换流量T扭曲源图像I_s，并获得扭曲的图像I_syn，如图5.1所示。

5.3、 LWGAN

本步主要完成：
（1）合成背景图像；
（2）根据可见部分预测不可见部分的颜色；
（3）根据SMPL的重建生成衣服，头发和其他物体的像素。

G_BG：mask背景图I_bg和通过在彩色通道（总共4个通道）中对进行二值化而获得的mask进行级联，以生成逼真的背景图像。
G_SID：一种去噪卷积自动编码器，旨在指导编码器提取能够保留源信息的特征。与生成的背景图像一起，将mask的源前景和对应图（总共6个通道）作为输入，并重建源正面图像I_s。
G_TSF：通过双线性采样器接收弯曲的前景，并输入对应映射（总共6个通道）作为输入。为了保留源信息，例如纹理，样式和颜色，提出了一种新颖的液体翘曲块（LWB），它将源与目标流链接在一起。它混合了的源特征并将其融合到传输流中。

提出的液体翘曲块（LWB）的优点之一是它可以解决多种来源，例如人体外观转移，保留来源一的头部，穿着来源二的上层外衣，同时穿着来源二的下层衣。来源三。功能的不同部分通过它们自己的转换流独立地聚合到中。这里，我们以两个来源为例，如图4所示。将和表示为层中不同来源的提取的特征图。是层的的特征图。源要素的每个部分都由其自己的转换流变形，并汇总到的要素中。我们使用双线性采样器（BS）分别针对转换流和扭曲源特征和。

5.4、训练细节和损失函数

整个损失功能包含四个术语，分别是知觉损失，面部身份损失，注意力正则化损失和对抗性损失。

六、数据集和评价指标

释然强

发布了5 篇原创文章 · 获赞 7 · 访问量 1234

私信关注