ICRA 2020——Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point

Abstract

重要性： 神经单元的感受野描述了影响其输出值的输入数据区域。感受野之外的所有输入数据均不影响输出。因此，大的感受野很重要，因为它们可以在较大的输入上下文中进行推理。

困难： 由于3D点云的结构不均匀，因此难以计算接收场的理论大小，因此该研究尤其具有挑战性。

分析： 可视化感受野以分析不同的网络体系结构，进行全面的消融研究，比较几种增加点卷积感受野的策略。

通过观察所得感受野的程度，注意到它们的影响仍然相当有限。

改进： 基于这些观察，论文提出了Dilated Point Convolutions作为一种显着增加点卷积的感受野大小的方法。

贡献:

大同小异，故不重复赘述。

A. Point Convolutions

点卷积可以使用D维空间中连续卷积的一般定义来表述。连续卷积定义为:

$(f\ast g)(p_{i})=\int_{- \infty}^{+ \infty}f(p_{j})\odot g(p_{i}-p_{j})dp_{j}-----(1)$

注释：

$\odot$ 是连续特征函数 $f:R^{D}\rightarrow R^{F}$ 的Hadamard-product ，为每个位置 $p_{j}\in R^{D}$ 分配一个特征向量 $f(p_{j})\in R^{F}$
连续核函数 $g:R^{D}\rightarrow R^{F}$ 将相对位置映射到核权重。
3D点云，D = 3，特征向量可以包含点位置，颜色和法线使得 $f(p)\in R^{9}$ . 如图2.

在大多数实际应用中，例如在重建3D点云时，特征函数 $f$ 尚不完全清楚，因为只有有限数量的N个点位置 $p_n$ 被观察到，甚至被占据。使用蒙特卡洛积分，连续卷积可以近似为:

$(f\ast g)(p_{i})\approx \frac{1}{N}\sum_{n=1}^{N}f(p_{n})\odot g(p_{i}-p_{n})-----(2)$

基于多层感知器（MLP）将内核函数 g(·) 实现为学习的参数函数：
$g(p;\theta)= MLP(p;\theta)---------(3)$
注释：

为了提取高频信号，重要的是定义局部核。在2D图像CNN中，这是通过3×3或5×5像素内核实现的。对于点卷积，可以通过限制局部内核支持的基数来实现此效果，即通过在每个点 $p_i$ 周围定义局部邻域 $N_i$ 。

$(f\ast g)(p_{i})\approx \frac{1}{\left | N_{i}\right |}\sum_{p_{k}\in N_{i}}f(p_{k})\odot g(p_{i}-p_{k})-----(4)$

目前很多方法都使用了连续卷积的上述定义。

B. Receptive Field Size.

增加接收场大小的常用方法:

堆叠多个（点）卷积层。 EdgeConvs 堆叠3个卷积层，SpiderCNN 使用4层，PCCN使用8层。论文比较3、5和7层。
增加卷积的内核大小。在点卷积的设置中，此效果是通过选择较大数量的k最近邻来实现的。但是注意，这不会增加模型参数的数量，因为使用参数内核函数g(·）在相对点位置上计算了内核权重。 这与在离散网格位置（例如2D图像CNN）上定义的卷积形成鲜明对比，在卷积中较大的内核会增加模型参数的数量。

Dilated Point Convolutions.

现状： 使用前面提到的方法，接收场大小仍然受到限制，如图4的前3行。

改进： 论文提出了扩张点卷积（DPC）作为增加接收场大小的一种有效机制。

细节：

DPCs等于点卷积（PC），但是它们在选择相邻点的方式上有所不同：虽然PC直接使用k个最近邻居，但DPC首先计算k·d个最近邻居，然后选择每个第d个邻居，见图2（右）。

注意，对于d = 1，DPC与PC相同。扩张会导致感受野的大小显着增加（见图4）。但是，参数的数量保持不变。需要计算的更大数量的k·d邻居增加了sublinear计算开销。见表IV。