【论文笔记】PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds

原文链接：https://arxiv.org/pdf/2305.04925v1.pdf

1.引言

基于点的表达、基于网格的表达，以及基于点与网格的混合表达方法关注聚合某个邻域内点的特征，本文将这样的操作称为局部点聚合操作。2D检测的成熟可以归因于训练策略和网络结构，但主流的3D目标检测都在针对点云处理设计专门的操作，而忽略了对网络结构的探索。
本文概述了3D目标检测的两个关键：局部点聚合操作和网络结构。
实验表明，在一定的计算预算下使用增强后的模型，基于柱体的方法能超过或达到与基于体素的方法相当的性能，且能大幅超过多表达融合的方法。这表明在较强的网络下，不同局部点聚合操作的作用相似。此外，本文将2D检测中的一些经验引入3D目标检测（例如，更大的感受野），并证明单尺度检测能超过以前多尺度检测模型的性能。
本文提出的模型基于柱体表达，称为PillarNeXt。

3.网络结构概述

基于网格的3D检测模型通常包括4个部分：将点云转化为结构化特征图的网格编码器、用于特征提取的主干、进行多尺度特征融合的颈部、以及任务相关的检测头。

3.1 网格编码器

考虑柱体表达、体素表达和多视图融合表达（柱体表达 + 距离视图/前视图表达）。

3.2 主干和颈部

主干网络均使用ResNet-18的结构，其中对于柱体表达和多视图融合表达使用2D卷积，而对体素表达使用3D稀疏卷积。颈部网络使用2D检测中的BiFPN（多尺度特征加权融合）或ASPP（使用多个不同膨胀率的卷积处理单一尺度特征）。

3.3 检测头

使用CenterPoint的检测头，并进行少量修改：特征上采样、类别分组检测、IoU分支。

4.实验

4.2 网络设计研究

4.2.1 网格编码器的研究

实验表明，柱体表达的速度最快，BEV AP指标最高，但3D AP略低于体素表达。通过增加训练周期数，引入IoU损失并在多组检测头（不同类别可能会使用不同的检测头）中加入IoU评分分支，柱体表达的性能能达到甚至超过体素表达（所有模型均进行上述增强）。这可能是因为失去了显式的高度建模使得柱体表达需要更长的训练来收敛，表明细粒度的局部几何建模是不必要的。

4.2.2 颈部网络的研究

使用FPN或BiFPN替换PointPillars中的颈部网络，可以提高汽车的检测精度。
由于BEV下的3D目标检测不存在物体大小变化的问题，因此多尺度检测可能是不必要的。因此本文使用几种单尺度颈部网络。使用YOLOF中的膨胀块增大感受野，增加了汽车的检测精度。此外，使用ASPP作为颈部网络，也能提高汽车的检测精度。而所有方案均有相当的行人检测精度，因此多尺度检测是不必要的，且扩大感受野是提高性能的关键。

4.2.3 分辨率的研究

若固定检测头处的分辨率，在柱体化时使用大的网格不会影响大型物体（如汽车）的性能，但会影响小型物体的检测。对检测头处的分辨率下采样则会影响所有类别的检测性能。但是，使用上采样层能显著提高性能，这表明细粒度信息已经被编码到BEV特征图中，上采样即可恢复细节。

4.3 总结

本文的PillarNeXt如下图所示，使用ASPP作为颈部网络并在检测头处进行特征上采样。
在这里插入图片描述

4.4 与SotA的比较

该部分在训练时额外使用复制粘贴数据增广和重采样CBGS，实验表明本文的方法性能最优。

附录

A.更多实施细节

在所有实验的训练中使用了随机翻转、随机旋转、随机缩放和随机平移。