3D视觉前沿论文整理-2020年7月第4周-3D手位姿估计

本文同步于微信公众号：3D视觉前沿，欢迎大家关注。

本期带来上周在arXiv公开的相关论文共6篇，其中涉及人体、人手的3D位姿估计等，这里只是给出大致简介，详细了解可阅读原文。

一、3D位姿估计

1. [AAAI] AWR: Adaptive Weighting Regression for 3D Hand Pose Estimation

作者机构：Weiting Huang, et al. BUPT & EBUPT Information Technology
论文地址：https://arxiv.org/pdf/2007.09590.pdf
论文代码：https://github.com/Elody-07/AWR-Adaptive-Weighting-Regression
简介：在这篇论文中，作者提出了一种自适应加权回归（AWR）方法，以便同时利用基于检测方法和基于回归方法的优势。在自适应权重图的指导下，手部关节坐标可以由稠密表示的所有像素进行离散积分估计得到。这种可学习的增强过程引入了稠密和联合监督，可以进行端到端训练，并可以给权重图带来自适应能力，从而使网络更加准确和鲁棒。全面的探索实验验证了AWR在各种实验设置下的有效性和通用性，尤其是其对不同类型的稠密表示和输入方式的有用性。作者提出的方法在包括NYU、ICVL、MSRA和HANDS 2017数据集在内的四个公共数据集上优于其他最新方法。

2. [ECCV] ContactPose: A Dataset of Grasps with Object Contact and Hand Pose
作者机构：Samarth Brahmbhatt, et al. Georgia Tech & Facebook Reality Labs
论文地址：https://arxiv.org/pdf/2007.09545.pdf
论文代码：https://contactpose.cc.gatech.edu/
简介：抓取对人类来说是很自然的，但是它涉及复杂的手部构造和软组织变形，这可能导致手和物体之间的接触区域变得复杂。了解并建模这种接触可以潜在地改善手部模型、AR/VR体验以及机器人抓取。然而，目前缺乏与其他数据模式匹配的手-物体接触的数据集，这对于开发和评估接触建模技术至关重要。作者提出了ContactPose，这是第一个与手部姿势、物体姿势和RGB-D图像配对的手-物体接触的数据集。ContactPose拥有针对25个家用物体的2306个独特抓取位姿，这些抓取位姿是由50个参与者基于2个功能性意图抓取得到的，以及2.9M以上的RGB-D抓取图像。对ContactPose数据的分析揭示了手部位姿与接触区域之间的有趣关系。作者使用此数据严格评估了各种数据表示形式、文献中的启发式方法以及对接触区域建模的学习方法。

3. [ECCV] Geometric Correspondence Fields: Learned Differentiable Rendering for 3D Pose Refinement in the Wild
作者机构：Alexander Grabner, et al. Graz University of Technology & Facebook Inc.
论文地址：https://arxiv.org/pdf/2007.08939.pdf
简介：作者提出了一种新颖的3D位姿精优化方法，该方法基于针对野外任意类别物体的可微分渲染。与以前的方法相比，作者有两个主要贡献：首先，不是在RGB或蒙版空间中比较真实世界的图像和合成的渲染图像，而是在一个专门针对3D位姿优化的特征空间进行比较。其次，作者介绍了一种新颖的可微分渲染器，该渲染器从数据中学习如何近似光栅化的反向传递过程，而不是依赖手工设计的算法。为此，作者以一种作者称为几何对应场的形式，预测RGB图像和3D模型渲染图像之间的深度跨域对应关系。这些对应场可以作为像素层次的梯度，通过渲染管道解析地向后传播，以便直接在3D位姿上执行基于梯度的优化。通过这种方式，作者将3D模型与RGB图像中的物体精确地进行了对齐，从而显著改善了3D位姿估计。作者在具有挑战性的Pix3D数据集上评估了提出的方法，在多个指标上，与当前最优的精优化方法相比，实现了高达55％的相对提升。

4. [arXiv] Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View Geometry
作者机构：He Chen, et al. The Johns Hopkins University & NUS
论文地址：https://arxiv.org/pdf/2007.10986.pdf
论文代码：https://github.com/HeCraneChen/3D-Crowd-Pose-Estimation-Based-on-MVG
简介：对极约束是当前进行多人多相机3D人体姿态估计方法中特征匹配和深度估计的核心。尽管这类方法在稀疏人群场景中的表现令人满意，但在人群密集的情况下其有效性经常受到挑战，这主要是由于两个歧义来源。第一个是由于使用简单线索推断的人体关节点之间的不匹配，这些简单线索是由关节点和极线之间的欧氏距离提供。第二个是由于简单地将问题看成最小二乘问题带来的鲁棒性缺失。在本文中，作者脱离了多人3D姿态估计，而是将其重新构造为人群姿态估计。提出的方法包括两个关键部分：一个用于快速交叉视图匹配的图模型，以及一个用于3D人体姿态重构的最大后验（MAP）估计器。作者在四个基准数据集上验证了提出方法的有效性和优越性。

5. [ECCV] SRNet: Improving Generalization in 3D Human Pose Estimation with a Split-and-Recombine Approach
作者机构：Ailing Zeng, et al. The Chinese University of Hong Kong & Microsoft Research Asia
论文地址：https://arxiv.org/pdf/2007.09389.pdf
简介：在训练集中很少见或未见过的人体姿态，要让网络预测的话具有挑战性。类似于视觉识别中的长尾分布问题，此类姿态的少量实例限制了网络对其建模的能力。有趣的是，局部姿态的分布受长尾问题的影响较小，即罕见姿态中的局部关节构造可能会出现在训练集中的其他姿态中，从而使其不那么罕见。作者提出利用这一事实，以更好地使算法泛化到罕见和未见过的姿态。具体来说，作者的方法利用这样一个性质，也即一个关节的位置主要取决于其局部身体区域内的关节位置，将身体分为局部区域并在单独的网络分支中对其进行处理。通过将身体其余部分的全局上下文，作为一个低维向量重组进每个分支，可以保持全局一致性。随着不太相关身体区域维度的降低，网络分支内训练集的分布，更加紧密地反映了局部姿态而不是整体姿态的统计信息，而不会牺牲联合推理所需要的重要信息。提出的称为SRNet的拆分重组方法可以轻松地适应单幅图像和时间模型，并且在预测稀有和未见过的姿态方面带来可观的改进。

6. [ECCV] Unsupervised Shape and Pose Disentanglement for 3D Meshes
作者机构：Keyang Zhou, et al. Max Planck Institute for Informatics
论文地址：https://arxiv.org/pdf/2007.11341.pdf
论文代码：https://virtualhumans.mpi-inf.mpg.de/unsup_shape_pose/
简介：人、脸、手和动物的参数模型已被广泛应用于一系列任务，例如基于图像的重建、形状对应估计和动画。它们的关键优势在于能够将形状表面的变化分解为与形状和姿态相关的组件。学习这样的模型需要大量的专业知识和人工定义的针对特定物体的约束，使得这种学习方法无法扩展到未知的对象。在本文中，作者提出了一种简单却有效的方法，以无监督的方式学习解耦的形状和姿态表示。作者基于配准好的网格，使用一种自我连续和交叉连续的组合约束，来学习姿态和形状空间。作者还额外将尽可能刚性变形（as-rigid-aspossible deformation，ARAP）纳入训练循环，以避免退化的解决方案。作者在许多任务（包括姿态转移和形状检索）上证明了学习到表示的有用性。在3D人、脸、手和动物的数据集上进行的实验证明了提出方法的普遍性。

3D视觉前沿论文整理-2020年7月第4周-3D手位姿估计

猜你喜欢