[Notas de papel] PillarNeXt: Repensar los diseños de redes para la detección de objetos 3D en nubes de puntos LiDAR

Enlace original: https://arxiv.org/pdf/2305.04925v1.pdf

1. Introducción

  Los métodos de expresión basada en puntos, expresión basada en cuadrículas y expresión híbrida basados ​​en puntos y cuadrículas se centran en agregar las características de los puntos en una determinada vecindad. Este artículo denomina a dicha operación operación de agregación de puntos locales. La madurez de la detección 2D se puede atribuir a la estrategia de capacitación y la estructura de la red, pero la detección de objetivos 3D convencional diseña operaciones especializadas para el procesamiento de nubes de puntos, mientras ignora la exploración de la estructura de la red.
  Este artículo describe dos claves para la detección de objetos 3D: operaciones de agregación de puntos locales y estructura de red.
  Los experimentos muestran que al utilizar el modelo mejorado con un cierto presupuesto computacional, el método basado en cilindros puede superar o lograr un rendimiento equivalente al método basado en vóxeles, y puede superar significativamente el método de fusión de múltiples expresiones. Esto muestra que bajo redes más fuertes, diferentes operaciones de agregación de puntos locales tienen efectos similares. Además, este artículo presenta cierta experiencia de la detección 2D en la detección de objetos 3D (por ejemplo, campos receptivos más grandes) y demuestra que la detección de una sola escala puede superar el rendimiento de los modelos de detección de múltiples escalas anteriores.
  El modelo propuesto en este artículo se basa en la representación de pilares y se llama PillarNeXt.

3. Descripción general de la estructura de la red.

  Los modelos de detección 3D basados ​​en cuadrículas generalmente incluyen 4 partes: un codificador de cuadrícula que convierte nubes de puntos en mapas de características estructurados, una columna vertebral para la extracción de características, un cuello para la fusión de características de múltiples escalas y un cabezal de detección relacionado con tareas.

3.1 Codificador enrejado

  Considere la expresión cilíndrica , la expresión vóxel y la expresión de fusión de múltiples vistas (expresión cilíndrica + expresión de vista a distancia/vista frontal).

3.2 Tronco y cuello

  Todas las redes troncales utilizan la estructura ResNet-18, en la que se utiliza convolución 2D para expresión cilíndrica y expresión de fusión de múltiples vistas, y convolución dispersa 3D se utiliza para expresión de vóxel. La red de cuello utiliza BiFPN (fusión ponderada de características de múltiples escalas) o ASPP (procesamiento de características de una sola escala usando múltiples convoluciones con diferentes tasas de expansión) en la detección 2D.

3.3 Cabezal de detección

  Utilice el cabezal de detección de CenterPoint y realice algunas modificaciones: muestreo mejorado de funciones, detección de agrupación de categorías, rama IoU.

4. Experimentar

4.2 Investigación sobre diseño de redes

4.2.1 Investigación sobre codificador enrejado

  Los experimentos muestran que la expresión cilíndrica es la más rápida y el índice BEV AP es el más alto, pero el AP 3D es ligeramente menor que la expresión vóxel. Al aumentar el número de ciclos de entrenamiento, introducir la pérdida de IoU y agregar ramas de puntuación de IoU a múltiples conjuntos de cabezales de detección (diferentes categorías pueden usar diferentes cabezales de detección), el rendimiento de la expresión cilíndrica puede alcanzar o incluso superar la expresión de vóxel (todos los modelos realizan lo anterior). mejorado). Esto puede deberse a que la pérdida del modelado de altura explícito hace que la representación del cilindro requiera un entrenamiento más largo para converger, lo que indica que el modelado de geometría local de grano fino es innecesario.

4.2.2 Investigación sobre la red del cuello

  Reemplazar la red de cuello en PointPillars con FPN o BiFPN puede mejorar la precisión de la detección de automóviles.
  Dado que la detección de objetivos 3D bajo BEV no tiene el problema de los cambios en el tamaño del objeto, la detección de múltiples escalas puede ser innecesaria. Por lo tanto, este artículo utiliza varias redes de cuello de una sola escala. El bloque de expansión en YOLOF se utiliza para aumentar el campo receptivo y aumentar la precisión de detección del automóvil. Además, el uso de ASPP como red de cuello también puede mejorar la precisión de detección de los automóviles. Todas las soluciones tienen una precisión de detección de peatones considerable, por lo que la detección a múltiples escalas no es necesaria y ampliar el campo receptivo es la clave para mejorar el rendimiento.

4.2.3 Investigación sobre resolución

  Si la resolución en el cabezal de detección es fija, el uso de una cuadrícula grande durante la columnarización no afectará el rendimiento de objetos grandes (como automóviles), pero sí afectará la detección de objetos pequeños. Reducir la resolución en el cabezal de detección afecta el rendimiento de la detección para todas las categorías. Sin embargo, el uso de una capa de muestreo ascendente puede mejorar significativamente el rendimiento, lo que indica que se ha codificado información detallada en el mapa de características BEV y el muestreo ascendente puede restaurar los detalles.

4.3 Resumen

  PillarNeXt en este artículo se muestra en la figura siguiente, utilizando ASPP como red de cuello y realizando un muestreo ascendente de funciones en el cabezal de detección.
Insertar descripción de la imagen aquí

4.4 Comparación con SotA

  Esta parte también utiliza el aumento de datos de copiar y pegar y el remuestreo de CBGS durante el entrenamiento. Los experimentos muestran que este método tiene el mejor rendimiento.

apéndice

A. Más detalles de implementación

  En el entrenamiento de todos los experimentos se utilizaron cambios aleatorios, rotación aleatoria, escalado aleatorio y traducción aleatoria.

Supongo que te gusta

Origin blog.csdn.net/weixin_45657478/article/details/130809840
Recomendado
Clasificación