人体姿态2019(七)Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

《Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation》论文解读

在这里插入图片描述

原文:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
收录:CVPR2019


Abstract

       借助大规模的室内3D数据集和复杂网络结构,基于单视角的的3D人体姿态估计取得显著的进展。然而,对不同环境的通用性仍然是一个难题。

       在本文中,通过:① 人体姿态的 几何感知3D表示(geometry-aware 3D representation) 以及② 在训练阶段将多个视图输入到自动编码器模型中,仅使用2D关键点信息作为监督,除此之外还提出 视图合成框架 实现将人体姿态从一个视图合成到另一个视图,来学习视图之间共享的3D表示。为提高潜在3D表示的鲁棒性,进一步引入 一致性约束 来学习3D表示。

为什么使用几何感知3D表示?
       因为将学习到的 几何感知3D表示 映射到3D位姿 比 之前将2D坐标或者图像映射到3D位姿容易得多。


1. Introduction

在这里插入图片描述       弱监督学习不需要大量精确的3D注释。通过大量自然背景下的2D注释来训练3D注释。但需要面临着自然条件下不受约束的2D标注和实验室环境下受限的3D标注之间进行大范围的领域转换的难题;

       整个方法将2D骨架图作为中间媒介,而编码器-解码器的 latent code 就是几何感知3D表示。具体地说,首先将源图像和目标图像映射成2D骨架图,然后训练编码器-解码器从源骨架合成目标骨架。


2. Weakly-Supervised Geometry Representation

在这里插入图片描述
 

Denotation Meaning
( I t i , I t j ) (I_{t}^{i},I_{t}^{j}) 时间 t t 下不同视角 i i j j 的相匹配图像
( S t i , S t j ) (S_{t}^{i},S_{t}^{j}) 时间 t t 下的二进制骨架映射对, S t ( ) { 0 , 1 } ( K 1 ) × W × H S_{t}^{(·)}\in \{0,1\}^{(K-1)\times W\times H}

       在 图像—骨架映射 步骤中,输入相匹配的原图像 ( I t i , I t j ) (I_{t}^{i},I_{t}^{j}) ,分别得到相应的K关节点热图 C t i C t j C_{t}^{i}、C_{t}^{j} ,之后从热图中构造相应的宽度为8像素2D骨架图,最后得到二进制骨架映射对 ( S t i , S t j ) (S_{t}^{i},S_{t}^{j})
 
 

        通过视图合成来获得几何表示 步骤中,采用L2重建损失来学习,上图的

  • encoder ϕ \phi 的作用:将 S t i G i S_{t}^{i}\rightarrow G_{i} ,即:将2D骨架图转化到隐式空间;
  • decoder ψ \psi 的作用:将 G i j S t j G_{ij}\rightarrow S_{t}^{j} ,即:将隐式空间转化到2D骨架图,其中 G i j = G i × R i j G_{ij}=G_{i}\times R_{i\rightarrow j}

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40520596/article/details/107700803