CVPR 2020——Weakly Supervised Semantic Point Cloud Segmentation: Towards 10× Fewer Labels

Weakly Supervised Semantic Point Cloud Segmentation: Towards 10× Fewer Labels

论文：https://arxiv.org/abs/2004.04091

Abstract

语义分割现有方法的成功归因于深层网络设计和大量带标签的训练数据，其中后者被认为始终可用。
但是，在实践中，获取3d点云分割标签通常非常昂贵。
在这项工作中，提出了一种弱监督的点云分割方法，该方法只需要在训练阶段标记一小部分点即可。
通过学习梯度近似以及利用其他空间和颜色平滑度约束，可以实现这一点。
在三个具有不同程度的弱监督的公共数据集上进行了实验。
提出的方法可以产生接近甚至有时比完全监督的方法更好的结果，而标签减少了10倍。

（一）Introduction

发现：

数据集标注昂贵。

提出问题：

是否有可能学习仅带有部分标记点的点云分割模型。
如果可以，那么多少就足以进行良好的分割。

问题定义：

弱监督学习

现有工作：

只有极少数的作品试图解决相关问题。
Weakly supervised segmentation-aided classification of urban scenes from 3d lidar point clouds，提出了一种非参数条件随机场分类器（CRF）来捕获用于弱监督分割的几何结构。但是，它将任务转换为纯粹的结构优化问题，因此无法捕获上下文，例如空间和颜色提示。
Semantic segmentation of 3d lidar data in dynamic scene using semi-supervised learning，提出了一种半监督3D LiDAR数据分割的方法。它将3D点转换为深度图，并使用CNN进行特征学习，并且从LiDAR扫描的时间一致性生成半监督约束。因此，它不适用于一般的3D点云分割。

目的：

使用强大的上下文建模能力和处理通用的3D点云数据来实现弱监督分割。

方法：

基于pointnet，DGCNN学习点云特征嵌入。
给定部分标记的点云数据，采用一个不完整的监督分支，该分支具有softmax交叉熵损失，该损失仅在标记的点处惩罚。

效果：

即使标签数量减少了10倍，也就是仅10％的点被标记，这种简单的策略也可以成功。
因为可以将不完全监督的学习梯度视为完全监督的采样近似值。
近似梯度收敛于分布的真实梯度，并且间隙以正态分布分布，其方差与采样点的数量成反比。
给定足够的标记点，近似梯度接近于真实梯度。

小结：

对每个样本中带有较少标记点的更多样本进行广泛注释总是比对具有更多（或完全）标记点的较少样本进行标记更好。

进一步改进：

由于上述方法仅对标记点施加了约束，因此建议在三个正交方向上对未标记点附加约束。
首先，引入了一个额外的不精确监督分支，该分支以与多实例学习相似的方式定义了点云样本水平的交叉熵损失。它的目的是抑制关于the negative categories的任何点的激活。
第二，通过随机训练的平面内旋转和翻转来扩充训练样本，从而引入了一个Siamese自我监督分支，然后鼓励原始和经扩充的逐点预测保持一致。
最后，语义部分/对象在空间和色彩空间中通常是连续的。为此，提出了空间和颜色平滑度约束，以鼓励具有相似颜色的空间相邻点具有相同的预测。

提出网络：

论文贡献：

这是研究深度学习环境中的弱监督点云分割的第一项工作。
对弱监督的成功进行了解释，并提供了在固定标签预算下对注释策略的深入了解。
基于inexact supervision， self-supervision以及空间和色彩平滑度采用了三项附加损失，以进一步约束未标记的数据。
在三个公共数据集上进行实验，这些数据集是鼓励未来研究的基准。

（二） Related Work

两种类型的弱监管： incomplete and inexact supervision. 论文将不精确监督作为对点云分割任务的不完全监督的补充。

（三）Methodology

3.1 Point Cloud Encoder Network

符号定义：

将输入点云数据正式表示为 $\left \{X_{b}\right \}_{b=1...B}$ ，其中 $B$ 个单独的形状（例如，形状分割）或房间块（例如，室内点云分割）。
每个样本 $X_{b}\in R^{N\times F}$ 包含N个3d点，这些点具有xyz坐标和可能的附加特征，例如RGB值。
每个样本还附有按点分割的标签 $y_{b}\in \left \{1,...,K\right \}^{N}$ ，例如飞机的机身，机翼和引擎。
将one-hot encoded labe表示为 $\hat{Y}\in {0,1}^{B\times N\times K}$ 。
使用由 $Θ$ 参数化的点云编码器网络 $f (X; Θ)$ 获得嵌入的点云特征 $Z_{b}\in {R}^{ N\times K}$ 。
嵌入的维数与分割类别的数量相同。

3.2. Incomplete Supervision Branch

假设在点云样本 $\left \{X_{b}\right \}$ 中只有很少的点被标记为ground-truth。将二进制掩码表示为 $M\in \left \{0,1\right \}^{ B\times N}$ ，标记点为1，否则为0。将标记点上的softmax交叉熵损失定义为:

其中 $\sum_{b,i}^{}m_{bi}=\left \| M\right \|_{1}$ 是归一化变量。

现象： 论文方法只需要10%的标记点就可以产生具有竞争力的结果，即 $\left \|M \right \|_{1}/(B\cdot N)=0.1$ 。

详细说明：

假设两个权重相似的网络，一个在完全监督下训练的网络和另一个在弱监督下训练的网络应该产生相似的结果。
假设两个网络均以相同的初始化开始，则每个步骤中梯度的较高相似性意味着两个网络收敛至相似结果的机会较高。
写出具有完全监督 $_{Θ}lf$ 和弱监督 $_{Θ}lw$ 的梯度:
在每个训练步骤中，学习梯度的方向是相对于每个单独点计算出的梯度的平均值。
假设 $\triangledown _{\theta}l_{bik}$ 期望值 $E\left [ \triangledown _{\theta}l_{bik}\right ]= \mu$ ，
方差 $Var\left [ \triangledown _{\theta}l_{bik}\right ]= \sigma ^{2}$ ，
采样平均值（n个样本） $S_{n}=mean(\triangledown _{\theta}l_{bik})$ 。
可以验证 $E\left [ \triangledown _{\theta}l_{bik}\right ]= ∇_{Θ}lf$ 和 $S_{n}=∇_{Θ}lw$ ， $C=\left \| M\right \|_{1}$ 。
根据中心极限定理，在分布上具有以下收敛性：
表示完全监督和弱监督的梯度之间的差异服从正态分布，其方差为 $\sigma ^{2}\left \| M\right \|_{1}$ 。
因此，足够数量的标记点，即足够大的 $\left \| M\right \|_{1}$ ，能够用 $_{Θ}lw$ 很好的近似 $_{Θ}lf$ 。
尽管很难预先估计 $σ$ 的值，但论文方法得出的结果与完全监管的结果相当，而标记点减少了10倍。

分析对固定预算下的数据标注：

问题： 标记总点数的50％，如图3（右）所示：应该标记每个样本中点数的50％（方案1）还是仅标记50％样本中的所有点？（方案2）？

答案： 从以上分析可以看出，方案1比方案2更好，因为它更接近于 $\triangledown _{\theta}l_{bik}$ 假设。在Sect3.4中的实验中进一步研究。

3.3. Inexact Supervision Branch

假设每个部分至少有一个标记点，则通过对所有点进行最大池化，每个训练样本 $X_b$ 都带有不精确的标记 $\overline{y}_{b}=max_{i}\widehat{y}_{bi}$ 。
因此，以与多实例学习类似的方式构建了inexact supervision branch。嵌入 $Z_b$ 的特征首先全局最大化，即 $\overline{z}_{b}=max_{i}{z}_{bi}$ 。
然后，计算inexact supervision branch损失。
由于 $\overline{z}_{b}$ 定义每个类别的logits，sigmoid cross entropy为:
基本原理是，对于样本中缺少的那些零件类别，不以高对数预测任何点。
incomplete supervision branch 仅在标签点的一小部分受到监督，而the inexact supervision branch 则在涉及所有点的样本级别上受到监督，因此它们是相互补充的。

3.4. Siamese Self-Supervision

不足： 尽管有上述两个损失，但大多数未标记的点仍然没有受到任何约束。

观点： 在这些方面增加限制可能会进一步改善结果。

改进：

首先介绍一个Siamese self-supervision structure。
假设任何一点的预测都是旋转和镜像翻转不变。对于3D CAD形状和在XoY平面中旋转的室内场景，语义标签不应随房间的不同视角而变化。
考虑到这一点，设计了一个带有两个共享参数编码器 $f_1(X)$ 和 $f_2(X)$ 的Siamese 网络结构。
给定训练样本X，应用由沿X和/或Y轴以及XoY平面旋转随机镜像组成的随机变换:
其中θ〜U（0,2π）（均匀分布）
a，b，c〜B（1,0.5）（伯努利分布）
第一矩阵控制旋转度，
第二矩阵控制镜像和X，Y交换。
用表示为 $\widetilde{X}=XR^{T}$ 的扩充样本，旋转不变约束变为最小化 $g(f_{1}(X))$ 和 $g(f_{2}(\widetilde{X}))$ 的概率预测之间的差异，其中g（·）为softmax函数。
使用L2距离来测量散度：

3.5. Spatial & Color Smoothness Constraint

思考：

3D形状或场景的语义标签通常在空间和色彩空间中都是平滑的。尽管它们可以被最先进的卷积网络所包含，但当大量未标记点的嵌入未受到分割损失的很好约束时，在weak supervision下，显式约束更加有利。

因此，在训练和推理阶段都引入了额外的约束。

Spatial & Color Manifold.

任务： 在点云上定义manifold，以通过图形说明局部几何形状和颜色。

将3D坐标通道和RGB通道（如果有的话）分别表示为 $X^{xyz}$ 和 $X^{rgb}$ 。
为了构造a graph for the manifold，首先计算通道 $c$ （xyz或rgb）的成对距离 $Pc∈R^{N×N}$ ， $p_{ij}^{c}=\left \| x_{i}^{c}-x_{j}^{c}\right \|_{2},\vee i,j\in \left \{1,...N\right \}$ 。
然后通过搜索每个点的k个最近邻居 $N N k (x)$ 来构建 $k - n n$ 图，并将相应的权重矩阵 $W^c∈R ^{N×N}$ 记为:
当xyz和rgb通道均可用时，将两个权重矩阵的总和设为 $w_{ij}=w_{ij}^{xyz}+w_{ij}^{rgb}，∀i,j$ 来产生更可靠的manifold。
因为xyz通道模糊了边界并且rgb通道分别链接了较远的点。
如果在空间距离和颜色上构造的manifold与标记的ground-truth盾，向W添加must-link和must-
not-link约束，以增强对已知标注的符合性，即：
进一步将拉普拉斯矩阵写为 $L = D - W$ ，degree matrix表示为 $D = d i a g (d)$ ，并且 $d_{i}=\sum_{j}^{}w_{ij},，∀i∈\left \{1···N\right \}$ 。

Training Stage.

引入manifold regularizer，以鼓励每个点的特征嵌入与先前获得的manifold一致。
更具体地说，如果 $w_{ij}$ 指示较高，则预测 $f(x_i)$ 应该保持接近 $f(x_j)$ ，否则保持不受约束。因此，正则表达式为:
$Z$ 是所有点的预测

Inference Stage.

在图像分割中，CNN的预测没有很好地考虑边界，并且经常采用CRF来完善原始预测。
在弱监督的点云分割中，此问题加剧了，由于有限的标签。
为了解决这个问题，引入了 semi-supervised label propagation procedure来完善预测。
具体而言，the refined predictions $\widetilde{Z}$ 应符合拉普拉斯算子L定义的空间和颜色manifold，并且同时不应与网络预测 $Z$ 偏离太多。目标为:

可以通过以下方式简单地获得每个点的最终预测值：

3.6. Training

最终的训练目标是所有上述目标的组合，即 $l_{total}=l_{seg}+\lambda_{1}l_{mil}+\lambda _{2}l_{sia}+\lambda_{3}l_{smo}$ 。
设置λ1，λ2，λ3=1。在等式中，将k-nn图选择为k = 10，η= 1e3，γ在等式11中被选择为1。
为了进行有效的训练，我们首先训练只有分割损失 $l_{seg}$ 的网络100个epochs。
然后总损失量训练了另外100个epochs。
在不同编码器网络的训练期间，将保留默认的学习速率衰减和批处理规范衰减。
对于所有实验，初始学习率固定为1e-3，对于受GPU内存大小限制的不同数据集，批处理大小从5到32不等。算法如下：

（四） Experiment

4.1. Dataset

ShapeNet and PartNet ：对于每个训练样本，从每个被标记的部分中随机选择一个点子集。
S3DIS：对于弱监督环境，假设在每个房间内统一标记了一个点子集。

4.2. Weakly Supervised Segmentation

两个弱监督设置:

1个点标签（1pt），我们假设每个类别中只有一个点标记为ground-truth。在1pt方案下，ShapeNet中不到0.8％的全部点被标记。S3DIS，总标记点小于0.2％。
10％的标签（10％），为每个训练样本统一标记所有点的10％。

Encoder Network.

选择具有默认参数的DGCNN 作为编码器网络，所提出的弱监督方法与可选择的编码器网络兼容。

Comparisons.

将方法的3个子类别进行比较。

Fully supervised approaches（完全补充），包括用于点云分割的最新网络。这些方法是弱监督方法的上限。
Weakly supervised approaches（Weak Sup.），论文的最终方法，在推理阶段接受了多任务总损失 $l_{total}$ 和标签传播的训练。
Unsupervised approaches，这些方法不依赖任何注释，而是直接根据空间和颜色相似性推断聚类。

ShapeNet.

表释：

弱监督模型产生了非常有竞争力的结果，每个零件类别只有1个标记点。
full supervision and 1 point weak supervision之间的差距小于12％。
标记点从1pt增至10％，分割性能的持续改善。
即使标注了10％的点数，弱监督模型也可以与完全监督相媲美。
多个损失和标签传播结合在一起的方法在基线的基础上有很大改进，并且优于其他通用的semi-supervised learning approaches 和无监督聚类方法。

S3DIS.

表释：

论文的方法仅标记了10％的点，其结果甚至比完全监督的结果稍好。
论文方法的结果始终优于无监督方法和备选的弱监督方法。

PartNet.

表2：1pt设置产生很好的结果，而论文10%的设置优于所有无监督和替代的弱监督方法。

4.3. Qualitative Examples

S3DIS可视化：

图释：

从左到右，依次可视化RGB视图，真实性，完全监督的分割，弱监督的基线方法以及最终方法的结果。
对于弱监督方法，假定标注了10％的训练点。观察到大多数和连续对象的精确分割，例如墙壁，地板，桌子，椅子和窗户。
特别，能够通过平滑嘈杂区域来显着改善基线结果。
在不同对象之间的边界处观察到存在一些错误。

ShapeNet可视化：

图释： 对于飞机和汽车类别，弱监督的结果与完全监督的结果非常接近。

4.4. Label More Points Or More Samples

探讨： 给定固定的标注预算，例如在标记点的总数上，标记策略有不同的组合，可以平衡标记样品的数量和每个样品中标记点的数量。

实验： 控制这两个变量，并使用PointNet编码器对ShapeNet分割进行验证，以进行有效评估。

步骤：

首先将固定预算限制为所有培训点的10％。标记策略由x％样本（Samp）进行描述，每个样本均带有y％标记点（Pts），xy = 1000，以满足该限制。

结论： 从x％的10％到100％的持续提高表明，在固定总标注预算的情况下，与密集地标记数据集的一小部分相比，用更少的标记点广泛地标记更多的样本会更好。

4.5. Ablation Study

Importance of Individual Components.

任务： 分析提出的附加损失和推理标签传播的重要性。使用1pt注释方案对所有数据集评估损失的不同组合。

表释：

Siamese self-supervision监督为S3DIS带来了最大的优势。这是因为S3DIS是一个真实的数据集，其中对象的方向和布局是多种多样的，Siamese augmentation和一致性约束增加了模型的鲁棒性。
相反，对于其他两个数据集，测试形状的姿势始终是固定的，因此，它们从Siamese augmentation中受益较少。
仅使用数据增强（最后一行），表明对未标记点具有一致性约束会更好。
由于inexact branch的multi-instance loss，结果也得到了进一步改善。
最后，在训练（Smo.）和推理（TeLP）阶段的平滑约束为整个体系结构带来更多优势。

Compatibility with Encoder Network.

对比损失与不同编码器网络的兼容性。以PointNet和DGCNN作为编码器网络来研究性能。可以明显看出，两个网络都表现出相同的patterns。

Amount of Labelled Data.

任务： 标记数据的数量对点云分割性能具有重大影响。通过改变标记点的数量来研究这种关系。使用基线弱监督方法将标记点的百分比控制为1％至100％（完全监督）。

图释： 所有数据集的性能在10％标记点之后都接近完全监督。

Point Feature Embedding.

任务： 将嵌入的点云功能可视化，以进一步了解为什么弱监督有好的性能。

步骤： 通过T-SNE 将特征在最后一层之前投影到2D空间中，以进行全面监督和10％弱监督。投影的点嵌入如图7所示。

图释： 观察到相似的特征嵌入模式。这再次证明了少量的标记点可以产生非常有竞争力的表现。

（五）Conclusion

发现现有的点云编码器网络只需要标记几个点即可为点云分割任务产生非常有竞争力的性能。
从统计的角度提供分析，并深入了解固定标签预算下的标注策略。
提出了三个额外的训练损失，即 inexact
supervision, Siamese self-supervision and spatial and color smoothness，以进一步规范化模型。
标记点减少了10倍的情况下，与完全监督的结果是可比的。

附录：

在形状分割任务上，弱监督和完全监督之间的差距甚至更小。