（一）论文地址：

https://arxiv.org/abs/1801.07791

（二）核心思想：

2D 图像中 CNN 的成功之处在于，利用图像网格中密集表示的数据（指像素）来表达空间局部相关性，但是对于在空间上无序并且密度不均匀的 3D 点云数据，直接使用 3D 卷积会导致形状信息的丢失和点排序的偏差；

为了解决这个问题，有的文章使用体素化（Minecraft 风格）来使数据对齐：
在这里插入图片描述

有的使用对称操作（如 PointNet）：
在这里插入图片描述

而作者提出了一种新的策略，即 X -transformation，来实现与点相关联的输入特征的加权，并且将点排列成潜在的规范顺序；

（三）3D 卷积的不足：

空间局部相关是各种类型数据的普遍特性，与数据表示无关；
在这里插入图片描述

如图，对于在规范域内的数据（如图像 $i$ ），CNN 能够很好地学习到这些数据的局部相关性；

但是对于无序的、不平整的点云数据，卷积算子却不适合利用数据中的空间局部相关性；

例如图 $ii,iii,iv$ ，假设它们都有相同的 $C$ 维特征 $F=\lbrace f_a,f_b,f_c,f_d\rbrace$ ，使用相同的卷积核 $K$ 得到的结果如下：

在这里插入图片描述

其中 $ii,iii$ 两个是显然不同的点集，但是由于点集的无序性，它们得到的结果却可能相同；

同样 $iii,iv$ 两个是相同的点集，得到的结果却不同；

这就说明卷积无法直接从无序的点集中，获取到点云的空间特征，也无法适应点集的排列；

（四）X-transformation：

为了解决卷积存在的不足，作者提出了可以使用一个 $K×K$ 大小的 X-transformation 空间变换矩阵，目的是利用它同时对输入特征进行加权和排序，然后对变换后的特征进行典型卷积，作者称这个过程为 X-Conv；

使用 X-Conv 再处理上述点云特征得到的结果为：
在这里插入图片描述

作者解释说：

因为 $X_{ii}$ 和 $X_{iii}$ 是从不同形状的不同点中学习得到的，所以对输入的不同特征有不同权重，因此使得 $f_{ii}\neq f_{iii}$ ；
因为 $X_{iii}$ 和 $X_{iv}$ 训练时是要求它们满足 $X_{iii}=X_{iv}×\prod$ ，其中 $\prod$ 是将
$(c, a, b, d)$ 转换成 $(a, b, c, d)$ 的置换矩阵，所以可以大致实现 $f_{iii}=f_{iv}$ ；

由上述分析可以得知，在理想情况下，变换矩阵 $X$ 是能够把点云的形状考虑在内的，并且具有排序不变性；但是实际情况是作者发现， $X$ 变换矩阵和预想差的很远，尤其是在排序方面，但依然能够大幅改善卷积在处理点云方面的不足；

（五）PointCNN 的网络结构：

5.1 Hierarchical Convolution：

层级卷积是 CNN 提取特征的关键，因此作者在 PointCNN 中也采用了这种层级结构：

在这里插入图片描述

假设 X-Conv 的输入为：
在这里插入图片描述
其中 $\lbrace p_{1,i}\rbrace$ 是点集， $\lbrace f_{1,i}\rbrace$ 是点集对应的特征；

那么 X-Conv 的目标映射就是得到：
在这里插入图片描述
其中 $\lbrace p_{1,i}\rbrace$ 是代表点的点集， $\lbrace f_{1,i}\rbrace$ 是代表点对应的特征；

通常要满足：

$N_2<N_1$
$C2>C1$

来得到聚合的高维特征；

而选取的代表点应该能够有效地表达信息“投影”或“聚合”，在分类任务中作者使用了随机下采样，而在分割任务中作者使用了最远点采样；

5.2 X-Conv 操作：

在这里插入图片描述

（也是中国人写的，，，为啥这么别扭呢）

这里再写一遍：

1： $P-p$ 得到点 $P$ 相对于 $p$ 的相对坐标；
2：使用多层感知机（MLP）将每个点分别提升到 $C_δ$ 维空间；
3：将 $F$ 和 $F_δ$ 拼接起来得到一个 $K×(C_δ+C_1)$ 大小的 $F_*$ ；
4：将 $P'$ 作为输入，使用多层感知机（MLP）训练或预测变换矩阵 $X$ ；
5：应用 $X$ 变换矩阵加权并置换 $F_*$ ；
6：将 $F_X$ 做卷积操作；