ECCV2020——Self-Prediction for Joint Instance and Semantic Segmentation of Point Clouds

Self-Prediction for Joint Instance and Semantic Segmentation of Point Clouds

Abstract

针对3D实例和点云的语义分割开发了一种名为“Self-Prediction”的新颖学习方案。
与大多数现有的专注于设计卷积操作符的方法不同，该论文设计了一种新的学习方案来增强点关系的探索，以便更好地分割。
更具体地说，将一个点云样本划分为两个子集，并根据它们的表示构造一个完整图。在给定一个子集的标签时，利用标签传播算法对另一个子集的标签进行预测。
通过训练这个Self-Prediction，骨干网络可以充分探索关系上下文/几何/形状信息和学习更多的可区分特征。
而且，在此基础上，设计了一种基于Self-Prediction方案的通用关联框架，用于同时增强实例和语义分割，结合实例和语义表示进行Self-Prediction。
通过这种方式，实例分割和语义分割相互配合，相互加强。
与基线相比，S3DIS和ShapeNet在实例分割和语义分割上取得了显著的性能改进。在S3DIS上取得了state-of-the-arts的实例分割结果。
在仅以pointnet++为骨干网络的情况下，与S3DIS和ShapeNet上最先进的语义分割结果相比，也取得了比较好的结果。

（一） Introduction

网络框架：

包含一个骨干网和instance-head，semantic-head和Self-Prediction head。
instance-head学习实例嵌入以进行实例聚类。
semantic-head则输出语义嵌入以进行语义预测。
在Self-Prediction head中，每个点的实例和语义嵌入被组合在一起。
然后，将语义和实例标签连接起来，为每个点形成一个多标签。
之后，将点云分为两组，其中一组标签被丢弃。
给定整个点云和一组标签的组合嵌入，构造了一个完整的图，然后使用标签传播算法为另一组同时预测语义和实例标签。
在两组之间执行双向传播。通过多标签自预测的此过程，实例和语义嵌入得到了关联的增强。
自我预测的过程结合了点的嵌入相似性，这使网络探索点之间的有效关系并学习更多区分性表示。
这三个heads在训练时进行了联合优化。在推理过程中，Self-Prediction head被丢弃，没有引入计算负担和网络参数。
论文框架在不同的骨干网络（如PointNet，PointNet ++等）上是通用且有效的。

（二） Related Work

（三） Methodology

3.1 Self-Prediction

定义：

Self-Prediction是与实例和分割任务并行的辅助任务，旨在增强骨干网络以学习更强大和更具区分性的表示形式。

idea:

为了获得更好的分割性能，许多现有工作设计了卷积算子以捕获点云中包含的关系，几何和形状信息。共同目标是学习更多区分性表示。但是，论文采取了新的观点。如果给定点云中rest points的标签，学到的表示形式可用于预测点云的一部分的实例/语义标签，则可以认为它充分利用了关系信息并具有足够的代表性。
因此，论文制定了一个Self-Prediction任务，即将点云平均分为两组，然后根据给定的表示在两组之间执行双向预测。

结果：

网络在Self-Prediction任务上表现良好，可以获得更 strong features ，并在特定任务（即实例和语义分割）上表现更好。

网络框架详解：

给定一个包含N个点 $\left \{x_{1},x_{2},...,x_{N}\right \}$ 的点云示例，每个点 $x_i∈R^h$ 可以用坐标，颜色，法线等表示。 $h$ 是输入点特征的维数。
对于每个点 $x_i$ ，其类别标签均由一个one-hot vector表示。制定一个标签矩阵 $Y \in y$ ，其中矩阵 $Y$ 的每一行表示点 $x_i$ 的one-hot label，而 $y$ 表示具有非负元素的 $N \times C$ 矩阵的集合（C是类别数）。
将点云平均分为两组，即 $X_{S}= \left \{x_{1},x_{2},...,x_{N}\right \}$ ，及其标签矩阵 $X_{1:M}；$ $X_{U}= \left \{x_{M+1},x_{M+2},...,x_{N}\right \}$ ，及其标签矩阵 $Y_{M+1:N}$ 。
使用标签传播算法在点子集 $X_S$ 和 $X_U$ 之间执行双向Self-Prediction，即从 $X_S$ 到 $X_U$ 以及从 $X_U$ 到 $X_S$ 反向传播标签。.
首先，构造一个完整的图 $W∈R^{N×N}$ ，其每个元素都由高斯相似度函数定义：
$W_{ij}=exp(-\frac{d\left ( \varphi \left ( x_{i}\right ),\varphi \left ( x_j\right )\right )}{2\sigma ^{2}})--------------------(1)$
$\varphi$ 是骨干网
$\varphi \left ( x_{i}\right )$ 表示点 $x_i$ 的提取特征，
$d$ 是欧几里得距离度量函数，
$σ$ 是用于调整strength neighbors的长度比例参数。
在所有实验中，将σ设置为1。
然后通过计算拉普拉斯矩阵对构造的图进行归一化：

$L=D^{-1/2}WD^{-1/2}----------------(2)$
$D$ 是对角矩阵， $D_{ii}$ 是 $W$ 的第i行之和。即 $D_{ii}=\sum_{j=1}^{N}W_{ij}$ 。

为了分别在给定 $X_S$ 标签预测 $X_U$ 标签和给定 $X_U$ 标签时预测 $X_S$ 标签，必须通过将Y1：M和YM + 1：N分别填充零向量来准备两个初始标签矩阵 $S^{0}$ 和 $U^0$ 。具体来说， $S^{0}$ 和 $U^0$ 表示为：
$S^{0}=\left [ Y_{1}^{T},...,Y_{M}^{T},0^{T},...,0^{T}\right ]^{T}------(3)$
$U^{0}=\left [ 0_{}^{T},...,0_{}^{T},Y_{M+1}^{T},...,0_{N}^{T}\right ]^{T}-----(3)$
$Y_i$ 表示标签矩阵 $Y$ 的第 $i$ 行。
Self-Prediction过程是通过标签传播算法执行的，其迭代版本如下：
$S^{(t+1)}=\alpha LS^{\left ( t\right )}+\left ( 1-\alpha\right )S^{0}------(4)$
$U^{(t+1)}=\alpha LU^{\left ( t\right )}+\left ( 1-\alpha\right )U^{0}------(4)$
$α$ 是用于控制传播比例的参数，即初始标记矩阵对传播结果的影响程度。将α设置为0.99。
$S^{(t)}\in y$ 和 $U^{(t)}\in y$ 是第 $t$ 次迭代结果。通过迭代方程4直到收敛，我们将得到最终结果 $S^∗$ 和 $U^ ∗$ 。论文直接使用<<Learning with local and global consistency中>>提出的上述迭代版本的封闭形式来获得传播/预测的结果。封闭形式的表达式，如下所示：
$S^{(\ast)}=\left ( 1-\alpha L\right )^{-1}S^{0}------(5)$
$U^{(\ast)}=\left ( 1-\alpha L\right )^{-1}U^{0}------(5)$
$I\in R^{N\times N}$ 是单位矩阵。 $S^{\ast}_{M+1:N}$ 和 $U^{\ast}_{1:M}$ 是有效的传播结果。
预测 $x_i$ 的标签通过arg max $U_{i}^{\ast}$ 当 $i\leq M$ and arg max $S_{i}^{\ast}$ 当 $i\leq N$ 。
最终self-predicted结果 $Y^{\ast}\in y$ 是：
$Y^{\ast}=\left [\cup^{\ast T}_{1:M},S^{\ast T}_{M+1:N}\right ]^{T}-----(6)$
最后，使用ground truth label矩阵 $Y$ 作为监督信号来训练这个Self-Prediction任务。

3.2 Associated Learning Framework

以点云 $X$ 为输入，骨干网输出特征矩阵 $F∈^{RN×H}$ ，其中 $H$ 表示输出特征的维数。Instance head以 $F$ 为输入，将其转换成point-wise instance embeddings $F_{ins}∈R^{N×H_{ins}}$ ，其中 $H_{ins}$ 是实例嵌入的维数，在所有的实验中都设置为32。

损失函数：

如果一个点云例子包含 $K$ 个实例，并且第K个（K∈1,2，…K）实例包含 $N_k$ points，则将 $e_j∈R^{H_{ins}}$ 表示为第j个点的实例嵌入，将 $\mu_{k}∈R^{H_{ins}}$ 表示为第 $K$ 个实例的平均嵌入。实例损失写为：
$L_{var.}=\frac{1}{C}\sum_{c=1}^{C}\frac{1}{N_{c}}\sum_{i=1}^{N_{c}}\left [ \left \| \mu_{C}-\epsilon _{i}\right \|-\delta _{v}\right ]_{+}^{2}---------------(5)$
$L_{dist.}=\frac{1}{C(C-1)}\sum_{C_{A}=1}^{C}\sum_{C_{B}=1}^{C}\left [2\delta _{d}- \left \| \mu_{C_{A}}-\mu_{C_{B}}\right \|\right ]_{+}^{2} ........ C_{A}\neq C_{B}----------(6)$
$L_{reg.}=\frac{1}{C}\sum_{C=1}^{C}\left \|\mu _{C} \right \|------------(7)$
$L_{ins}=L_{var}+L_{dist}+0.001\cdot L_{reg}--------(10)$
$\left [ x\right ]_{+}=max(0,x)$ ， $δ_v$ , $δ_d$ 分别是 $L_{var}和L_{dist}$ 的边界
$L_{var.}$ 将属于同一实例的特征拉到它们的平均值
$L_{dist.}$ 将具有不同实例标签的聚类分开
$L_{reg.}$ 是一个正则化的术语， pulling the means towards the origin。

实例标签：

通过在推理过程中对实例嵌入进行mean-shift聚类得到的。

semantic-head：

以特征矩阵 $F$ 为输入，学习语义嵌入矩阵 $F_{sem}∈R^{N×H_{sem}}$ ，在交叉熵损失的监督下进一步进行点分类。点语义嵌入的维数 $H_{sem}$ 被设置为128。

Self-Prediction head:

结合实例嵌入和语义嵌入，联合self-predict实例和语义标签。
具体地说，将 $F_{ins}$ 和 $F_{sem}$ 沿着axis of features连接起来，并将其转换成一个联合嵌入矩阵 $F_{joint}∈R^{H_{joint}}$ ，其中 $h_{joint}$ 是联合嵌入的维数，在所有的实验中都设置为160。
对于 $X$ 中的每个点，分别将其语义和实例标签转换为one-hot形式。
每个点的实例标签表示它属于哪个实例。这个实例标签是语义不可知的，即不能从一个点的实例标签中推断出它的语义标签。
一个数据集包含 $C_{sem}$ semantic类，而输入点云样本 $X$ 包含 $C_{ins}$ instances。然后将语义标签矩阵和实例标签矩阵分别表示为 $Y_{sem}∈y_{sem}$ and $Y_{ins}∈y_{ins}$ ，其中 $Y_{sem}$ 是具有非负元素的 $N×C_{sem}$ 矩阵的集合， $Y_{ins}$ 是具有非负元素的 $N×C_{ins}$ 矩阵的集合。
在给定这两个标签矩阵的基础上，通过连接每个点的语义标签和实例标签，构造了一个多标签矩阵 $Y_{joint}∈y_{joint}$ ，其中 $Y_{joint}$ 是 $N×（C_{sem}+C_{ins}）$ 矩阵的非负元素集。可以从 $Y_{joint}$ 推断每个点属于哪个语义类和实例。
将self-predicted 切片为 $Y_{joint}^*∈y_{joint}$ 切片为语义结果 $Y_{sem}^*∈y_{sem}$ 和 $Y_{ins}^*∈y_{ins}$ ，然后分别由semantic ground truth $Y_{sem}$ 和instance ground truth $Y_{ins}$ 进行监督。应该注意的是，Self-Prediction每次都是在一个点云样本之间进行的，因此实例标签的含义随样本的不同而变化也没关系。

Instance-head, semantic-head and Self-Prediction head 联合优化:

Instance-head and semantic-head旨在获得分割结果。
Self-Prediction head 融合了点之间的相似性关系，并加强了backbone以学习更多区分性表示。
这三个heads相互配合，可获得更好的分割效果。
Self-Prediction head被丢弃，during inference仅使用实例头和语义头，因此不会引入额外的计算负担和空间使用量。

3.3 Optimization Objectives

用等式10中的实例损失 $L_{ins}$ 训练instance-head。
semantic-head由经典的交叉熵损失训练，并由语义标签 $Y_{sem}$ 监督，写为：

$L_{sem}=-\frac{1}{N}\sum_{i=1}^{N}\left [ Y_{sem}\right ]_{i}logp_{i}----(11)$

$p_i$ 表示由softmax函数计算的输出概率分布。
给定共同的self-predicted 结果 $Y_{ins}^{\ast}$ 和 $Y_{isem}^{\ast}$ ，我们还通过交叉熵损失训练了Self-Prediction head，公式为：
$L_{sp}=-\frac{1}{N}\sum_{i=1}^{N}\left ( \left [ Y_{ins}\right ]_{i}\ast logq_{i}+\left [ Y_{sem}\right ]_{i}\ast logr_{i}\right )--------(12)$
$q_i$ 和 $r_i$ 是 $Y_{ins}^{\ast}$ 和 $Y_{isem}^{\ast}$ 第 $i$ 行的输出概率分布（由softmax计算）。
输出概率分布也由softmax函数计算
三个head共同优化，总体优化目标是上述三个损失的加权总和：
$L=L_{ins}+L_{sem}+\beta L_{sp}--------(13)$

其中，β用于平衡上述三个项的贡献，以使它们对总损失的贡献相等。在所有的实验中，β均设置为0.8。

（四）Experiments

4.1 Experiment Settings

Datasets：

S3DIS
ShapeNet

S3DIS:

对于在S3DIS上进行的实验，采用与PointNet 相同的设置，其中每个房间被分成面积为1m×1m的块。
每个3D点均由9维矢量表示（XYZ，RGB和房间的归一化位置）。
在训练期间为每个块采样4096个点，所有点都用于测试。
上面提到，先构造一个图，然后将点云分为两组以在Self-Prediction head中执行Self-Prediction。在实践中，将点云分为more than两组以进行加速。
具体来说，根据实例标签将每个块平均分为8组，即保证每个实例的点平均分布在每个组中。
结果，每个语义的点也平均地分布在每个组中。
然后随机配对4对，进行Self-Prediction。
使用SGD优化器，batch size 8。在S3DIS上训练了100个时期的所有模型。基本学习率设置为0.01，然后每20个时期除以2。
按照与JSIS3D: joint semanticinstance segmentation of 3d point clouds with multi-task pointwise networks and multi-value conditional random fields. In: CVPR (2019)和Associatively segmenting instances
and semantics in point clouds. In: CVPR (2019)相同的设置将 $δ_v$ 设置为0.5，将 $δ_d$ 设置为1.5。 $L_{sp}$ 的损失权重系数β设置为0.8.
BlockMerging算法用于在推理过程中合并来自不同块的实例，对于mean-shift clusterin，bandwidth设置为0.8。