3D视觉前沿论文整理-2020年7月第3周

本文同步于微信公众号：3D视觉前沿，欢迎大家关注。

本期带来上周在arXiv公开的3D相关论文共15篇，其中深度估计、三维重建、点云生成4篇，3D检测、3D分割4篇，点云配准及6D位姿估计4篇，新视角合成及3D渲染库3篇，这里只是给出大致简介，详细了解可阅读原文。

1. 深度估计、三维重建、点云生成：

1.1 [IROS] 360° Depth Estimation from Multiple Fisheye Images with Origami Crown Representation of Icosahedron

作者机构：Ren Komatsu, et al. The University of Tokyo, etc.
论文地址：https://arxiv.org/pdf/2007.06891.pdf
代码地址：https://github.com/matsuren/crownconv360depth
简介：作者提出了一种从多个室内全向图像 (omnidirectional images) 中估计全方位深度的方法，具体是基于平面扫描的立体重建方法 (plane-sweeping stereo) 进行深度估计；作者针对全向图像提出了一种基于二十面体的表示方法以及ConvNets网络，这个网络被称为“CrownConv”是因为这种表示类似于折纸制成的表冠。CrownConv可以提取鱼眼图像和等矩形图像的特征。此外，作者提出了基于二十面体的球面扫描算法，能够从提取的特征中生成二十面体的代价立方体 (cost volume)。使用三维CrownConv可以对体代价立方体行正则化，而最终的深度值可以从代价立方体中回归得到。通过使用相机的外参，作者提出的方法对摄像机的对齐状态具有鲁棒性；因此，即使相机的对齐状态和训练集不一致时，也可以得到精确的深度估计。作者在合成数据上评估了提出的算法，验证了有效性。提出的算法在计算上效率高，在具有GPU的笔记本上针对四个鱼眼图像能够在1s内估计深度，适用于实际机器人应用。

在这里插入图片描述

1.2 [ECCV] $P^2$ Net: Patch-match and Plane-regularization for Unsupervised Indoor Depth Estimation

作者机构：Zehao Yu, et al. ShanghaiTech Univsertiy & DGene Inc
论文地址：https://arxiv.org/pdf/2007.07696.pdf
代码地址：https://github.com/svip-lab/Indoor-SfMLearner
简介：本文解决了室内环境下的无监督深度估计任务。由于这些场景中存在大量非纹理区域，因此该任务极具挑战性。这些区域可能会使用于室外环境的常用无监督深度估计框架中的优化过程不堪重负。然而，即使遮盖了这些区域，性能仍然不能令人满意。在本文中，作者认为性能不佳的原因来自于不具有区分性的基于点的匹配过程。为此，作者提出了 $P^2$ Net。首先，提取具有较大局部梯度的点，并采用以每个点为中心的块作为该点的表示。然后，在块上定义多视图一致性损失。这项操作显着提高了网络训练的鲁棒性。更进一步的，由于室内场景中那些无纹理的区域（例如，墙壁，地板，屋顶等）通常对应于平面区域，因此作者提出利用超像素作为平面先验。作者确保预测的深度与每个超像素内的平面都能很好地拟合。在NYUv2和ScanNet上进行的大量实验表明，提出的 $P^2$ Net优于现有方法一大截。

在这里插入图片描述

1.3 [ECCV] JNR: Joint-based Neural Rig Representation for Compact 3D Face Modeling

作者机构：Noranart Vesdapunt, et al. Microsoft Cloud and AI
论文地址：https://arxiv.org/pdf/2007.06755.pdf
简介：作者提出了一种学习3D面部模型的新方法，使用一种基于关节的面部装备 (face rig) 和一个蒙皮神经网络。由于使用了基于关节点的表示方法，提出的模型比之前基于blendshape的模型具有一些显著优势。首先，它非常紧致，即使大小要小几个数量级，但仍保持强大的建模能力。其次，由于每个关节都有其语义，因此交互式面部几何图形编辑变得更加容易和直观。第三，通过蒙皮，提出的模型支持以更简单，更准确，更原则的方式添加口腔内部和眼睛以及附件（头发，眼镜等）。作者认为，人脸是高度结构化且拓扑一致的，因此无需完全从数据中学习。相反，我们可以借助人工设计的3D面部装备，利用先验知识来减少对数据的依赖，能够从一个特别小的数据集（少于100个3D扫描数据）中学习紧致而强大的面部模型。为了进一步提高建模能力，作者通过对抗学习训练了一个蒙皮权重生成器。通过一些实验，包括拟合高质量3D扫描数据（包括中性和有表情的）、带噪声的深度图像，以及RGB图像，表明其建模能力与当前最优的人脸模型（例如FLAME和Facewarehouse）相当，尽管该模型要小10到20倍。这表明提出方法对于在移动和端侧设备上的图形和视觉应用具有广泛的应用价值。

在这里插入图片描述

1.4 [ECCV] Progressive Point Cloud Deconvolution Generation Network

作者简介：Le Hui, et al. Nanjing University of Science and Technology
论文地址：https://arxiv.org/pdf/2007.05361.pdf
代码地址：https://github.com/fpthink/PDGN
简介：在本文中，作者提出了一种有效的点云生成方法，该方法可以从一个隐式向量中生成同一个形状的多分辨率点云。具体来说，作者使用基于学习的双边插值，开发了一种渐进式反卷积网络。这种基于学习的双边插值是在点云的空间和特征空间中进行的，因此可以利用点云的局部几何结构信息。从低分辨率点云开始，通过双边插值和最大池化操作，反卷积网络可以逐步输出高分辨率的局部和全局特征图。通过连接不同分辨率的局部和全局特征图，作者使用多层感知器 (MLP) 用作生成网络以生成多分辨率点云。为了使不同分辨率的点云形状保持一致，作者提出了一种形状保持的对抗损失来训练点云反卷积生成网络。实验结果验证了提出方法的有效性。

在这里插入图片描述

2. 3D检测、3D分割

2.1 [arXiv] CenterNet3D: An Anchor free Object Detector for Autonomous Driving

作者机构：Guojun Wang, et al. Jilin University, Chinese Academy of Sciences, etc.
论文地址：https://arxiv.org/pdf/2007.07214.pdf
简介：当前的一些单阶段的3D检测方法虽然能够达到实时，但是仍需要基于anchor的检测器，这不是那么有效而且往往需要后处理。在这篇文章中，作者不使用anchor，而是将一个物体用其3D包围盒的中心点来代替。基于这个中心点，作者提出了anchor-free的CenterNet3D网络结构。CenterNet3D通过估计关键点的方式得到中心点，并且直接回归3D包围盒。然而由于点云的内在稀疏性，3D物体的中心点大概率落在空间中的空白区域，这为精确估计边界带来了困难。因此，作者提出了一个附加的角点注意力模块，来使CNN将更多的注意力放在物体的边界上，进而有效得到更精确的物体包围盒。除此之外，CenterNet3D不需要进行非极大值抑制 (NMS)，变得更加有效和简洁。在KITTI数据集上，CenterNet3D和其他单阶段anchor-based方法相比得到了相当的性能，展示了提出的中心点表示方法的有效性。

在这里插入图片描述

2.2 Complete & Label: A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds

作者机构：Li Yi, Boqing Gong, Thomas Funkhouser. Google Research
论文地址：https://arxiv.org/pdf/2007.08488.pdf
简介：作者研究的是一个针对3D点云语义标注的无监督领域适应问题，重点关注不同的LiDAR传感器之间的领域差异。稀疏3D点云可以看作是由3D表面采样得到的，作者基于此提出了一种补全并标注的方法，在将点云输入分割网络之前，先恢复其潜在的表面。具体的，作者设计了一个稀疏体补全网络 (Sparse Voxel Completion Network (SVCN)) 来补全稀疏点云的3D表面。和语义标签不同，提出的算法不需要人工标注就可以获得SVCN的训练数据。作者还引入了对抗学习的方法，对形状的先验进行建模。重建的3D表面可以看作是正则领域，在这里语义标签可以在不同的LiDAR传感器之间进行转换。对不同域的LiDAR数据进行语义标注的实验及消融学习的结果，展示了提出的方法比以往领域适应的方法具有8.2-36.6%的性能提升。

在这里插入图片描述

2.3 [ECCV] JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds

作者机构：Zeyu Hu, et al. Hong Kong University of Science and Technology & City University of Hong Kong
论文地址：https://arxiv.org/pdf/2007.06888.pdf
代码地址：https://github.com/hzykent/JSENet
简介：语义分割和语义边缘检测可以看作是计算机视觉中紧密联系的两个双重问题。尽管基于学习的3D语义分割方法快速发展，但较少研究关注如何基于学习得到3D语义边缘检测器，甚至很少有针对这两个任务的联合学习方法。在本文中，作者首次解决了3D语义边缘检测的任务，并提出了一个两路输入的全卷积网络，共同执行这两项任务。特别地，作者设计了一个联合优化模块，能够显式地关联区域信息和边缘信息，以提高在两个任务上的性能。此外，作者提出了一种新的损失函数，能够使网络产生具有更好边界的语义分割结果。在S3DIS和ScanNet数据集上进行广泛评估表明，提出的算法与当前最优的语义分割方法性能相当甚至更好，并且在语义边缘检测方面优于基线方法。

在这里插入图片描述

2.4 [SGP] Learning Part Boundaries from 3D Point Clouds

作者机构：Marios Loizou, et al. University of Cyprus, etc.
论文地址：https://arxiv.org/pdf/2007.07563.pdf
代码地址：https://github.com/marios2019/learning_part_boundaries
简介：作者提出了一种检测以点云表示的3D形状中部件边界的方法。提出的方法基于图卷积网络架构，该架构为每一个点输出位于将3D形状中的两个或多个部件分开的区域中的概率。作者提出的边界检测器非常通用：可以训练它来定位3D建模中常用的语义部件或几何基元的边界。实验表明，与其他方法相比，作者的方法可以提取出更准确的、更接近于真值的边界。作者还展示了网络在细粒度形状语义分割中的应用，在部件标注性能上有提升。

在这里插入图片描述

3. 点云配准及6D位姿估计

3.1 [arXiv] Fast and Robust Iterative Closet Point

作者机构：Juyong Zhang, et al. University of Science and Technology of China & Cardiff University.
论文地址：https://arxiv.org/pdf/2007.07627.pdf
简介：迭代最近邻点 (ICP) 算法及其变体是对两个点集进行刚性配准的基本技术，在从机器人到3D重建的不同领域都有广泛的应用。 ICP的主要缺点是收敛速度慢，以及对异常值、数据缺失和部分重叠的敏感度。最近的一些工作像SparseICP，通过稀疏优化以计算速度为代价实现了鲁棒性。作者提出了一种具有快速收敛性的鲁棒配准新方法。首先，作者证明了经典的点对点ICP可以看作是一个优化最小化 (majorization-minimization, MM)算法，并提出了一种Anderson加速方法来改善其收敛性。其次，作者基于威尔士 (Welsch) 函数引入了一个鲁棒的误差指标，使用具有Anderson加速的MM算法可以有效地将其最小化。在具有噪声和部分重叠的挑战性数据集上，作者取得的精度与Sparse ICP相似或更高，但至少快了一个数量级。最后，作者将鲁棒的模式扩展到点对面ICP，并使用类似的Anderson加速的MM策略，解决了所产生的问题。作者提出的鲁棒性ICP方法提高了基准数据集的配准精度，同时在计算时间上具有竞争力。

在这里插入图片描述

3.2 [arXiv] MeTRAbs: Metric-Scale Truncation-Robust Heatmaps for Absolute 3D Human Pose Estimation

作者机构：Istvan Sarandi, et al. RWTH Aachen University & Robert Bosch GmbH
论文地址：https://arxiv.org/pdf/2007.07227.pdf
简介：多年以来，热力图表示已成为人体姿势估计系统的基础，而将其扩展到3D已成为近期研究的热点。这包括2.5D的体热力图，其X轴和Y轴对应于图像空间，Z轴对应于对象周围的度量深度。为了获得度量尺度下的预测，2.5D方法需要一个单独的后处理步骤来解决尺度的歧义。此外，它们无法定位图像边界之外的身体关节点，从而导致截断图像的不完整估计。为了解决这些限制，作者提出了度量尺度截断鲁棒的 (metric-scale truncation-robust, MeTRo) 体热力图，其维度都在度量3D空间中定义，而不是与图像空间对齐。这种对热力图维度的重新解释，使我们能够直接估计完整的、度量尺度下的位姿，而无需距离的测试时间先验或依赖于人体测量学的启发式方法（例如骨骼长度）。为了进一步证明提出算法的有效性，作者提出一种3D度量尺度热力图与2D图像空间热力图的可微分组合，以估算绝对的3D姿态。结果发现，通过绝对位姿损失进行监督，对于准确的非根相对定位非常严格。使用没有更多学习层的ResNet-50骨干网络，算法取得了在Human3.6M，MPI-INF-3DHP和MuPoTS-3D数据集上的当前最优结果。

在这里插入图片描述

3.3 [arXiv] SeqHAND: RGB-Sequence-Based 3D Hand Pose and Shape Estimation

作者机构：John Yang, et al. Seoul National University & University of Birmingham
论文地址：https://arxiv.org/pdf/2007.05168.pdf
简介：当前大多数基于RGB图像的3D手姿势估计算法，都是基于独立的静态图像进行逐帧估计。在本文中，作者不仅考虑手的外观，还将手部的暂时运动信息合并到学习框架中，以获得更好的3D手姿势估计性能。不过，这需要一个包含大量手部连续RGB图像序列的数据集。作者提出了一种方法，通过将现存的静态手部姿势数据集，重新设计为姿势流，从而生成模拟自然人手运动的合成数据集。利用生成的数据集，作者训练了一个新提出的递归框架，利用运动中合成手的序列图像的视觉状态特征，并添加一个短时连续性约束加强估计位姿的短时连续性。作者提出的分离递归层的训练策略，允许保留从连续的合成手图像中学到的视觉状态特征。通过序列帧估计的手部位姿能够产生自然而流畅的手部运动，从而导致更可靠的估计结果。作者展示了利用短时状态信息进行3D手部姿势估计能够极大提升通用的手部姿势估计结果，在基准数据集上比当前最优的方法要更优。

在这里插入图片描述

3.4 [ECCV] Shape Prior Deformation for Categorical 6D Object Pose and Size Estimation

作者机构：Meng Tian, et al. National University of Singapore
论文地址：https://arxiv.org/pdf/2007.08454.pdf
代码地址：https://github.com/mentian/object-deformnet
简介：作者提出了一种从RGB-D图像中恢复未见物体实例的6D位姿和尺寸的方法。为了处理类内形状的差异，作者提出了一个深层网络来重建物体的3D模型，通过显式描述从一个预先学习到的类别的形状先验模型，到当前物体的变形模型。此外，提出的网络可以推断出，当前对象实例的深度与重建的3D模型之间的稠密对应，进而共同估计出6D物体位姿和尺寸。作者设计了一个自动编码器，可以在一组物体模型上训练，计算每个类别的平均潜在嵌入，以学习一个类别的形状先验。在合成数据集和真实数据集上进行的大量实验表明，提出的方法大大优于当前最优方法。

在这里插入图片描述

4. 新视角合成及3D渲染库：

4.1 [ECCV] AUTO3D: Novel view synthesis through unsupervisely learned variational viewpoint and global 3D representation

作者机构：Xiaofeng Liu, et al. Harvard University, etc.
论文地址：https://arxiv.org/pdf/2007.06620.pdf
简介：这篇文章旨在没有位姿监督的情况下，从单幅或者有限数量的2D图像中，基于学习的方法进行新视角合成。以观察者为中心的坐标系中，作者构建了一个端到端的可训练的条件变分框架，以解耦无监督学习得到的相对位姿或旋转，以及隐式的全局3D表示 (形状、纹理以及观察者坐标系的原点等)。3D物体的全局表示通过一些在任意个视角采集的描述外观的图像给出。作者提出的空间相关模块，能够以一种排列无关的方式，从这些描述外观的图像中提取一种全局表示。作者提出的系统能够在不显式3D重建的情况下，获得隐式的3D理解。基于无监督能够学习以观察者为中心的相对姿势/旋转，解码器通过一种先验分布采样相对位姿，能够连续生成新视角图像。在各种应用中，作者都展示了在任意视角图像输入的情况下，提出的模型可以达到，与有位姿或3D模型监督的新视角合成方法，相当甚至更好的结果。

在这里插入图片描述

4.2 [ICML] DRWR: A Differentiable Renderer without Rendering for Unsupervised 3D Structure Learning from Silhouette Images

作者机构：Zhizhong Han, et al. Tsinghua University & University of Maryland
论文地址：https://arxiv.org/pdf/2007.06127.pdf
简介：鉴于可微分渲染器能够架设3D和2D之间的桥梁，因此被成功应用于基于2D图像的无监督3D结构学习。为了优化3D形状的参数，当前的渲染器通常计算，根据3D重建渲染的图像和对应视角下真值图像的，逐像素的损失。因此，这些方法需要在每个像素处对恢复的3D结构进行插值、可见性处理，并可选地评估阴影模型。相比之下，作者提出了一个不需要以上步骤的，无需渲染的可微分渲染器 (Differentiable Renderer Without Rendering (DRWR))。 DRWR仅依靠一个简单但有效的损失，该损失能够评估重建3D点云的投影，相对于真值物体轮廓的覆盖程度。具体而言，DRWR先采用了一个平滑的轮廓损失，将每个3D点的投影拉到物体轮廓内，又使用了一个结构感知的排斥力损失，将落在轮廓内的每对投影点推向彼此远离。尽管作者省略了表面插值，可见性处理和明暗处理，但结果表明，DRWR在广泛使用的基准下，达到了当前最佳的精度，在质量和数量上均优于以前的方法。此外，由于DRWR的简单性，算法的训练时间大大缩短。

在这里插入图片描述

4.3 [arXiv] Accelerating 3D Deep Learning with PyTorch3D

作者机构：Nikhila Ravi, et al. Facebook AI Research
论文地址：https://arxiv.org/pdf/2007.08501.pdf
项目地址：https://pytorch3d.org/
代码地址：https://github.com/facebookresearch/pytorch3d
简介：作者认为目前3D深度学习没有被充分挖掘的主要原因是工程上的挑战，例如如何有效处理异构数据以及重新设计集合操作使其可微等。因此，作者提出了一个包含很多面向3D深度学习的、模块化的、有效且可微的运算库PyTorch3D。它包含一个针对网格和点云的、快速且模块化的可微分渲染器(renderer)，能够允许边渲染边分析的工作。和其他可微分渲染器相比，PyTorch3D更加模块化和高效，允许用户以更轻松地扩展它，支持优雅地扩充到较大的网格和图像。作者将PyTorch3D的运算符和渲染器与其他实现进行了比较，展示了显着的速度和内存的提升。作者还使用PyTorch3D提升了当前基于图像的、无监督估计3D网格和点云的当前最佳技术的性能。PyTorch3D目前已经开源，作者希望能够加速3D深度学习领域的发展。

3D视觉前沿论文整理-2020年7月第3周

猜你喜欢