TMM 22 | 像拆玩具一样的点云预训练

文章题目：Self-supervised Point Cloud Representation Learning via Separating Mixed Shapes

作者：Chao Sun, Zhedong Zheng, Xiaohan Wang, Mingliang Xu and Yi Yang

论文链接：https://www.zdzheng.xyz/files/TMM_3D_Pre_Training.pdf

代码链接：GitHub - cyysc1998/3D-Pretraining: Self-supervised Point Cloud Representation Learning via Separating Mixed Shapes

摘要：

大规模点云的手动注释需要花费大量时间，并且在恶劣的现实世界场景中通常不可用。受视觉和语言任务中预训练和微调范式取得巨大成功的启发，我们认为预训练也是获得 3D 点云下游任务的可扩展模型的一种潜在解决方案。因此，在本文中，我们探索了一种新的自监督学习方法，称为混合和分离 (MD)，用于 3D 点云表示学习。顾名思义，我们混合两个输入形状并要求模型学习将输入与混合形状分开。我们利用这个重建任务作为自我监督学习的借口优化目标。有两个主要优点：

1）与流行的图像数据集（例如 ImageNet）相比，点云数据集实际上很小。混合过程可以提供更大的在线训练样本池。

2）另一方面，解耦过程（Disentangle）促使模型挖掘几何先验知识，例如关键点。

为了验证所提出借口任务的有效性，我们构建了一个基线网络，该网络由一个编码器和一个解码器组成。在预训练期间，我们混合两个原始形状并从编码器获得几何感知嵌入，然后应用实例自适应解码器从嵌入中恢复原始形状。尽管简单，但预训练编码器可以捕获看不见的点云的关键点，并在下游任务上超越从头开始训练的编码器。所提出的方法在点云分类和分割任务方面提高了 ModelNet-40 和 ShapeNet-Part 数据集的经验性能。我们进一步进行消融研究以探索每个组件的效果，并通过利用不同的主干来验证我们提出的策略的泛化。

Motivation：

我们的出发点其实很简单，如下图红色箭头所指的混合点云，我们很容易就能看出他是由飞机（Plane）和椅子（Chair）混合而成。甚至我们可以看出哪些点是来自于飞机，哪些点来自于椅子。