《论文阅读23》3DMatch: Learning Local Geometric Descriptors from RGB-D Reconstructions

一、论文

研究领域：点云配准
论文：3DMatch: Learning Local Geometric Descriptors from RGB-D Reconstructions
CVPR 2017
论文code

二、论文简述

提出了3DMatch，一个数据驱动的模型，学习一个局部体积补丁描述符建立部分3D数据之间的对应关系

为了促进3D关键点匹配和几何配准领域的进一步研究，我们提供了一个对应匹配基准以及一个类似于[5]的表面配准基准，但具有真实世界的扫描数据。

三、论文详述

abstract

由于三维扫描数据的噪声、低分辨率和不完整的性质，匹配真实世界深度图像上的局部几何特征是一项具有挑战性的任务。这些困难限制了当前最先进的方法的性能，这些方法通常基于几何属性上的直方图。在本文中，我们提出了3DMatch，一个数据驱动的模型，学习一个局部体积补丁描述符建立部分3D数据之间的对应关系。为了为我们的模型积累训练数据，我们提出了一种自我监督的特征学习方法，该方法利用了现有RGB-D重建中发现的数百万个对应标签。实验表明，我们的描述符不仅能够匹配局部几何在新场景中的重建，而且可以推广到不同的任务和空间尺度（例如，Amazon Picking Challenge的实例级对象模型对齐以及网格曲面对应）。结果表明，3DMatch始终优于其他国家的最先进的方法显着余量。代码、数据、基准测试和预训练模型可在http://3dmatch.cs.princeton.edu在线获得。

Introduction

匹配3D几何图形有着悠久的历史，始于计算机图形和视觉的早期。随着商品范围传感技术的兴起，这项研究已经成为至关重要的许多应用，包括对象姿态估计，对象检索，三维重建，和相机定位。

然而，在低分辨率，噪声和部分3D数据中匹配局部几何特征仍然是一项具有挑战性的任务，如图所示。1.虽然有各种各样的低级手工几何特征描述符可用于此任务，但它们大多基于从静态几何特性上的直方图导出的签名[18，21，27]。它们适用于具有完整表面的3D模型，但在来自3D扫描数据的真实世界部分表面中通常不稳定或不一致，并且难以适应新的数据集。因此，使用这些描述符来匹配几何形状的最新3D重建方法需要大量的算法工作来处理离群值并建立全局对应关系[5]。

为了解决这些困难，并受到最近成功的神经网络的启发，我们制定了一个数据驱动的方法来学习局部几何描述符，用于建立部分3D数据之间的对应关系。我们的想法是，通过从示例中学习，数据驱动模型可以充分解决在3D扫描数据中的部分表面之间建立对应关系的困难。为此，我们提出了一个3D卷积神经网络（ConvNet），称为3DMatch，它在3D表面上的任意兴趣点周围的局部体积区域（或3D补丁）中，并计算该点的特征描述符，其中两个描述符之间的距离越小，对应的可能性越高。

然而，针对该任务优化基于3D ConvNet的描述符需要大量的训练数据（即，局部3D片之间的地面实况匹配）。这种具有人工注释的训练数据是一种具有挑战性的奋进。与2D图像标签不同，2D图像标签可以从网络上有效地众包或解析，通过手动点击3D部分数据上的关键点对来获取地面实况对应关系不仅耗时而且容易出错。

手动点击3D部分数据上的关键点对来获取地面实况对应关系不仅耗时而且容易出错

我们的关键思想是通过利用现有RGB-D场景重建中的对应标签来积累训练数据。由于3D重建的重要性，已经有很多关于设计可以从RGB-D数据构建高保真重建的算法和系统的研究[24，25，8]。虽然这些重建已被用于关于环境的高级推理[38，39]，但经常被忽视的是，它们也可以作为对齐深度帧的3D表面之间的标记对应关系的大量来源。通过对来自多个现有RGB-D重建数据集的对应关系进行训练，每个数据集都有自己的传感器噪声，遮挡模式，几何结构的方差和各种相机视点的属性，我们可以优化3DMatch以概括和鲁棒地匹配真实世界部分3D数据中的局部几何形状。

在本文中，我们从62个RGB-D场景重建的集合中训练了超过800万个对应关系[36，30，39，20，15]，并展示了其在几个应用中匹配3D数据的能力。结果表明，3DMatch在匹配关键点方面明显优于最先进的方法，并且在与标准RANSAC相结合时优于其他几何配准算法。此外，我们证明了3DMatch也可以推广到不同的任务和空间分辨率。例如，我们利用3DMatch获得实例级模型对齐的6D对象姿态估计，以及在3D网格中找到表面对应。为了促进3D关键点匹配和几何配准领域的进一步研究，我们提供了一个对应匹配基准以及一个类似于[5]的表面配准基准，但具有真实世界的扫描数据。

Related Work

学习用于匹配3D数据的局部几何描述符位于计算机视觉和图形学的交叉点。我们简要回顾了这两个领域的相关工作。

手工制作的3D本地描述符。已经提出了许多几何描述符，包括自旋图像[18]、几何直方图[12]和直方图的签名[34]、特征直方图[28]。这些描述符中的许多现在在点云库[3]中可用。虽然这些方法已经取得了重大进展，但它们仍然难以处理来自商品范围传感器的噪声，低分辨率和不完整的真实世界数据。此外，由于它们是针对特定应用或3D数据类型手动设计的，因此它们通常难以推广到新的数据模态。我们工作的目标是提供一个新的本地3D描述符，直接从数据中学习，以提供更强大和更准确的几何特征匹配结果在各种设置。

已学习2D局部描述符。最近可用的大规模标记的图像数据开辟了新的机会，使用数据驱动的方法来设计二维局部图像补丁描述符。例如，各种作品[32，31，40，16，41，16]学习从局部图像块到特征描述符的非线性映射。许多这些先前的工作是在从多视图立体数据集生成的数据上训练的[4]。然而，除了限于图像上的2D对应关系之外，多视图立体在实践中难以按比例放大，并且容易由于在无纹理或非朗伯表面上丢失对应关系而出错，因此它不适合于学习3D表面描述符。最近的工作[29]使用RGB-D重建来训练2D描述符，而我们训练3D几何描述符。

已学习3D全局描述符。在学习3D数据的几何表示方面也取得了快速进展。3D ShapeNets [38]引入了3D深度学习来建模3D形状，最近的几项工作[22，11，33]也从3D数据中计算深度特征，用于对象检索和分类任务。虽然这些工作是鼓舞人心的，但他们的重点是在全球范围内从完整的3D对象模型中提取特征。相比之下，我们的描述符侧重于学习几何特征的真实世界的RGB-D扫描数据在本地一级，以提供更多的鲁棒性时，处理部分数据遭受各种遮挡模式和视点差异。

已学习3D本地描述符。更密切相关的这项工作是郭等人。[14]，它使用2D ConvNet描述符来匹配网格标记的局部几何特征。然而，他们的方法只在合成和完整的3D模型上运行，而在没有任何空间相关性的级联特征向量的输入补丁上使用ConvNets。相比之下，我们的工作不仅解决了匹配真实世界部分3D数据的难题，而且还以空间相干的方式在体积数据上适当地利用3D ConvNets。

自我监督深度学习。最近，人们对使用自动获得的标签来学习强大的深度模型产生了极大的兴趣。例如，最近的工作表明，来自视频的时间信息可以用作丰富的监督来源，以学习对各种任务有用的嵌入[13，26]。其他工作表明，从自我运动监督中学习的深度特征比使用类别标签作为许多任务的监督的特征表现得更好[2]。类似于最近在自监督学习方面的工作，我们从现有的RGB-D重建中在线提取训练数据和对应标签的方法是全自动的，不需要任何人工劳动或人工监督。

自监督学习（Self-Supervised Learning）是一种机器学习方法，其中模型从数据中学习表示，而无需显式的人工标签或监督信号。相反，自监督学习任务通过将输入数据中的一部分信息作为“伪标签”或“自动生成的标签”来自动生成训练数据。

自监督学习的核心思想是利用数据本身的内在结构和关联来训练模型。这通常涉及将输入数据分成两个或多个部分，然后让模型预测其中一部分基于另一部分。这种自动生成的标签可以是从数据中随机生成的，也可以通过某种方式从原始数据中提取。

以下是自监督学习的一些常见示例和方法：

1. **语言模型预训练**：在自然语言处理领域，大型语言模型如BERT和GPT通过自监督学习进行预训练。模型通过掩盖文本中的某些词语或预测下一个词来学习文本的表示，而不需要人工标签。

2. **图像处理中的自监督学习**：在计算机视觉领域，自监督学习方法可以通过将图像进行随机裁剪、旋转或通过图像增强技术来生成伪标签，然后训练模型来还原原始图像或预测这些伪标签。

3. **视频自监督学习**：在视频处理领域，模型可以通过学习视频帧之间的关系，例如预测视频的下一个帧或前一个帧，来进行自监督学习。

4. **自监督强化学习**：在强化学习领域，自监督方法可以用于学习智能体的控制策略，其中环境提供自动生成的奖励信号，而无需手动设计奖励函数。

自监督学习的优势在于可以利用大量未标记的数据进行模型训练，从而降低了标记数据的需求，提高了模型的泛化能力。这种方法在深度学习中越来越受欢迎，并在多个领域取得了显著的成功。

监督学习[参考]
监督学习是使用已知的正确答案的示例训练网络的过程。对于每一个训练数据，都有相对应的标签。通过训练数据和标签得到模型。
需要知道的是，在模型的训练过程中，每一个样本都有自己的标签，标签可以是文件夹的名称，或者是统一写在某个文件里。标签一般是经过人工标注生成的。常见的监督学习任务是分类任务和回归任务。标签的主要作用是用于损失计算，作为模型学习的动力。拿神经网络来说。输入的训练数据会经过前向传播得到预测结果，通过和标签比对得到误差。这个误差就是模型继续学习的动力，比对的方式就是损失函数。

无监督学习
通过学习训练数据的分布来生成模型，模型往往反映出训练数据的内在结构。无监督学习不需要任何标签，只要有训练数据即可。聚类算法最经典的无监督学习算法。以k-means算法为例，在聚类的过程中它只需要计算每一个质心和其他样本的距离，根据距离大小来判断它们所属的簇。这种算法不需要任何的标签，只要有数据计算距离即可。还有一些关联规则的算法、降维算法，例如Aprio算法、PCA算法，也是无监督的。
无监督算法的问题在于难以确定合适的评价指标去直接评估模型结果的好坏，例如聚类问题，对于聚类结果难以衡量，这也限制了聚类算法的使用面。

半监督学习
半监督学习是介于监督学习和无监督学习之间。如果一个数据集只有少量数据有标签，大部分数据没有标签的话就需要使用半监督学习算法。一般的思路是充分发挥那一部分有标签的数据的作用。比如生成辅助特征，辅助伪标签的生成过程。半监督学习中常用到伪标签。伪标签是模型生成的预测结果。利用这个预测结果重新训练模型，由于和真是标签存在着差距，所以称为伪标签。后面的帖子会介绍伪标签的生成。

自监督学习
自监督学习和无监督学习常常拿来比较。自监督学习不需要任何标签。但是自监督学习任务需要利用数据生成标签，利用生成的标签来继续训练模型，后面的帖子也会介绍自监督学习算法。自监督学习算法常用在对比学习中。

Learning From Reconstructions

在本文中，我们的目标是创建一个函数ψ，该函数将3D表面上的点周围的局部体积区域（或3D补丁）映射到描述符向量。给定任何两个点，理想函数ψ将它们的局部3D补丁映射到两个描述符，其中描述符之间的较小l2距离指示较高的对应可能性。我们通过利用来自现有高质量RGB-D场景重建的数据来学习函数ψ。

这种方法的优点有三个方面：

首先，重建数据集可以提供大量的训练对应关系，因为每个重建包含从多个不同扫描视图观察到的数百万个点。每个观察对提供用于匹配局部几何形状的训练示例。在相同兴趣点的不同观察之间，其局部3D补丁可能由于传感器噪声、视点方差和遮挡模式而看起来非常不同。这有助于提供一个大的和多样化的通信训练集。

其次，重建可以利用领域知识，如时间信息和精心设计的全局优化方法，这可以促进宽基线配准（循环闭合）。我们可以使用来自这些具有挑战性的注册的对应关系来训练一个强大的描述符，该描述符可以用于上述领域知识不可用的其他任务。

第三，通过从多个重建数据集学习，我们可以优化3DMatch，以在各种条件下概括和鲁棒地匹配真实世界部分3D数据中的局部几何形状。具体来说，我们使用从Analysis-by-Synthesis [36]，7Scenes [30]，SUN 3D [39]，RGB-D Scenes v.2 [20]和Halber等人收集的62个不同场景的总计超过200 K RGB-D图像。[15]第10段。54个场景用于训练，8个场景用于测试。每个重建数据集是在不同的环境中以不同的尺度捕获的，具有不同的局部几何形状，并利用不同的重建算法构建。

Generating Training Correspondences

为了获得训练3D补丁和它们的地面真实对应标签（匹配或不匹配），我们从从重建随机采样的兴趣点周围的不同扫描视图中提取局部3D补丁。为了找到兴趣点的对应关系，我们将其在重建中的3D位置映射到所有RGB-D帧中，对于这些RGB-D帧，3D点位于帧的相机视锥体内并且未被遮挡。从其拍摄RGB-D帧的相机的位置被强制为至少间隔1 m，使得观察对之间的视图足够宽基线化。然后，我们从这些RGB-D帧中的两个中提取兴趣点周围的两个局部3D补丁，并将它们用作匹配对。为了获得非匹配对，我们从随机挑选的深度帧的两个兴趣点（至少0.1米）随机采样的重建表面提取局部3D补丁。每个局部3D补片被转换成体积表示，如在第12节中所描述的。4.1.