Abstract

借助大规模的室内3D数据集和复杂网络结构，基于单视角的的3D人体姿态估计取得显著的进展。然而，对不同环境的通用性仍然是一个难题。

在本文中，通过：① 人体姿态的 几何感知3D表示（geometry-aware 3D representation） 以及② 在训练阶段将多个视图输入到自动编码器模型中，仅使用2D关键点信息作为监督，除此之外还提出 视图合成框架 实现将人体姿态从一个视图合成到另一个视图，来学习视图之间共享的3D表示。为提高潜在3D表示的鲁棒性，进一步引入 一致性约束 来学习3D表示。

为什么使用几何感知3D表示？
因为将学习到的 几何感知3D表示 映射到3D位姿比之前将2D坐标或者图像映射到3D位姿容易得多。

1. Introduction

在这里插入图片描述弱监督学习不需要大量精确的3D注释。通过大量自然背景下的2D注释来训练3D注释。但需要面临着自然条件下不受约束的2D标注和实验室环境下受限的3D标注之间进行大范围的领域转换的难题；

整个方法将2D骨架图作为中间媒介，而编码器-解码器的 latent code 就是几何感知3D表示。具体地说，首先将源图像和目标图像映射成2D骨架图，然后训练编码器-解码器从源骨架合成目标骨架。

2. Weakly-Supervised Geometry Representation

在这里插入图片描述

Denotation	Meaning
$(I_{t}^{i},I_{t}^{j})$	时间 $t$ 下不同视角 $i$ ， $j$ 的相匹配图像
$(S_{t}^{i},S_{t}^{j})$	时间 $t$ 下的二进制骨架映射对， $S_{t}^{(·)}\in \{0,1\}^{(K-1)\times W\times H}$

在 图像—骨架映射 步骤中，输入相匹配的原图像 $(I_{t}^{i},I_{t}^{j})$ ，分别得到相应的K关节点热图 $C_{t}^{i}、C_{t}^{j}$ ，之后从热图中构造相应的宽度为8像素2D骨架图，最后得到二进制骨架映射对 $(S_{t}^{i},S_{t}^{j})$ 。

通过视图合成来获得几何表示 步骤中，采用L2重建损失来学习，上图的

encoder $\phi$ 的作用：将 $S_{t}^{i}\rightarrow G_{i}$ ，即：将2D骨架图转化到隐式空间；
decoder $\psi$ 的作用：将 $G_{ij}\rightarrow S_{t}^{j}$ ，即：将隐式空间转化到2D骨架图，其中 $G_{ij}=G_{i}\times R_{i\rightarrow j}$

在这里插入图片描述

人体姿态2019（七）Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

《Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation》论文解读

Abstract

1. Introduction

2. Weakly-Supervised Geometry Representation

猜你喜欢