《Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation》论文解读
原文:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
收录:CVPR2019
Abstract
借助大规模的室内3D数据集和复杂网络结构,基于单视角的的3D人体姿态估计取得显著的进展。然而,对不同环境的通用性仍然是一个难题。
在本文中,通过:① 人体姿态的 几何感知3D表示(geometry-aware 3D representation) 以及② 在训练阶段将多个视图输入到自动编码器模型中,仅使用2D关键点信息作为监督,除此之外还提出 视图合成框架 实现将人体姿态从一个视图合成到另一个视图,来学习视图之间共享的3D表示。为提高潜在3D表示的鲁棒性,进一步引入 一致性约束 来学习3D表示。
为什么使用几何感知3D表示?
因为将学习到的 几何感知3D表示 映射到3D位姿 比 之前将2D坐标或者图像映射到3D位姿容易得多。
1. Introduction
弱监督学习不需要大量精确的3D注释。通过大量自然背景下的2D注释来训练3D注释。但需要面临着自然条件下不受约束的2D标注和实验室环境下受限的3D标注之间进行大范围的领域转换的难题;
整个方法将2D骨架图作为中间媒介,而编码器-解码器的 latent code 就是几何感知3D表示。具体地说,首先将源图像和目标图像映射成2D骨架图,然后训练编码器-解码器从源骨架合成目标骨架。
2. Weakly-Supervised Geometry Representation
Denotation | Meaning |
---|---|
时间 下不同视角 , 的相匹配图像 | |
时间 下的二进制骨架映射对, |
在 图像—骨架映射 步骤中,输入相匹配的原图像
,分别得到相应的K关节点热图
,之后从热图中构造相应的宽度为8像素2D骨架图,最后得到二进制骨架映射对
。
通过视图合成来获得几何表示 步骤中,采用L2重建损失来学习,上图的
- encoder 的作用:将 ,即:将2D骨架图转化到隐式空间;
- decoder 的作用:将 ,即:将隐式空间转化到2D骨架图,其中