【论文笔记】Ada3D: Explotación de la redundancia espacial con inferencia adaptativa para una detección eficiente de objetos 3D

Ada3D: Explotación de la redundancia espacial con inferencia adaptativa para una detección eficiente de objetos 3D
原文链接: https://arxiv.org/abs/2307.08209

1. Introducción

  La percepción 3D debe ser rápida y precisa. El método basado en vóxeles puede lograr el rendimiento SotA, pero está limitado por los recursos de los vehículos autónomos y es difícil cumplir con los requisitos en tiempo real.
  Hay dos razones para el largo tiempo de procesamiento: primero, el modelo es demasiado grande, incluidas operaciones que consumen mucho tiempo, como la convolución dispersa 3D; segundo, la entrada que el algoritmo necesita procesar es demasiado grande (demasiados puntos lidar). Artículos anteriores lo consideraron desde la perspectiva de la compresión del modelo; este artículo considera métodos para reducir el tiempo de inferencia desde el nivel de datos.
  Las redes comunes basadas en vóxeles utilizan backbones 3D para extraer características 3D de nubes de puntos de entrada, que luego se proyectan en BEV y se procesan posteriormente con backbones 2D. Sin embargo, existe redundancia espacial tanto en los vóxeles 3D como en los BEV 2D. Por ejemplo, los puntos de las superficies de las carreteras y los edificios pertenecen a los puntos de fondo de la detección 3D. Al descartar aleatoriamente el 30% de los puntos o descartar el 70% de los puntos fuera del cuadro delimitador (primer plano), solo se produce una ligera degradación del rendimiento. La CNN 3D existente trata todos los puntos por igual y desperdicia mucho cálculo y almacenamiento en el área de fondo. Solo una pequeña parte del mapa de características 2D BEV tiene valores de píxeles y el resto son valores de fondo 0. Pero los métodos actuales tratan los mapas de características BEV 2D como mapas de características densos y utilizan el procesamiento CNN regular. Después de pasar la primera capa BN, el mapa de características pierde su escasez.
  Este artículo propone el método de inferencia adaptativa Ada3D para reducir la redundancia de datos. Utilice la inferencia adaptativa para redes troncales 3D y 2D, filtrando selectivamente vóxeles 3D redundantes y características BEV 2D durante la inferencia. Se utiliza un predictor liviano para evaluar la importancia de las características de entrada bajo BEV, y la puntuación de predicción se combina con la densidad de puntos lidar para determinar si se deben descartar puntos. Además, se propone una normalización por lotes simple y efectiva que preserva la escasez para eliminar la influencia de los píxeles de fondo y preservar la escasez de las características BEV 2D. Ada3D puede reducir significativamente la cantidad de cálculo y almacenamiento sin sacrificar el rendimiento.

3. Método

3.1 Detección basada en vóxeles con inferencia adaptativa

Insertar descripción de la imagen aquí
  La operación de voxelización genera vóxeles dispersos X 3D ∈ RN × C X_\text{3D}\in\mathbb{R}^{N\times C}X3DRN × C , dondeNNN es el número de vóxeles,CCC es el número de canales característicos. Columna vertebral de voxel 3DF 3D \mathcal{F}_\text{3D}F3DUtilice convolución dispersa 3D para extraer características de la nube de puntos y obtener X ~ 3D \tilde{X}_\text{3D}X~3D. Más adelante zzSuma agrupada en el eje z , proyectada sobre BEV para obtener características 2D X 2D ∈ RC × W × H X_\text{2D}\in\mathbb{R}^{C\times W\times H}X2DRC × An × Al . Registre el proceso de proyección y su proceso inverso comoΓ 3D → 2D \Gamma_{\text{3D}\rightarrow\text{2D}}C3D 2DΓ 2D → 3D \Gamma_{\text{2D}\rightarrow\text{3D}}C2D 3D. Red troncal 2D F 2D \mathcal{F}_\text{2D}F2DLas características BEV se extraen aún más y finalmente se envían al cabezal de detección F head \mathcal{F}_\text{head}FcabezaHaga predicciones de cuadros delimitadores.
  La inferencia adaptativa se emplea tanto en redes troncales 3D como 2D. ii a la columna vertebral 3Di capa, la inferencia adaptativa se puede expresar como: X 3D i = F 3D i ( X ~ 3 D i − 1 ) tilde{X}_{3D}^{i-1})X3Dyo=F3Dyo(X~3D _yo 1)其中X ~ 3D i − 1 = Γ 2D → 3D ( F caída ( Γ 3D → 2D ( X 3D i − 1 ) , S ) ) ⊙ X 3D i − 1 S = F puntuación ( Γ 3D → 2D ( X 3D i − 1 ) ) \tilde{X}_\text{3D}^{i-1}=\Gamma_{\text{2D}\rightarrow\text{3D}}(F_\text{drop}(\Gamma_{ \text{3D}\rightarrow\text{2D}}(X_\text{3D}^{i-1}),S))\odot X_\text{3D}^{i-1}\\S=F_ \text{puntuación}(\Gamma_{\text{3D}\rightarrow\text{2D}}(X_\text{3D}^{i-1}))X~3Dyo 1=C2D 3D( Fsoltar( C3D 2D( X3Dyo 1) ,S ))X3Dyo 1S=Fpuntuación( C3D 2D( X3Dyo 1))这里S ∈ RW × HS\in\mathbb{R}^{W\times H}SRW × H representa la puntuación de importancia de los píxeles BEV, que está representada porla puntuación F F_\text{score}Fpuntuación(La entrada son vóxeles 3D después de la proyección BEV) Se obtiene combinando la salida del predictor y la densidad de la nube de puntos. Dada la tasa de caída R drop R_\text{drop}Rsoltar, proceso de filtrado espacial F drop F_\text{drop}FsoltarBasado en la puntuación de importancia SSS descarta la mayoría de las partes redundantes de las funciones BEV y genera una máscara única que indica si se debe conservar una ubicación determinada. Al transmitir de nuevo al espacio 3D y multiplicar elementos por elementos con las características de vóxel 3D originales,se obtienen las características de vóxel 3D reducidas X ~ 3 D i − 1 \tilde{X}_{3D}^{i-1}X~3D _yo 1. Los vóxeles filtrados se tratan como valores 0 y no se almacenarán ni procesarán. Más información sobre F drop F_\text{drop}FsoltarF puntuación F_\text{score}FpuntuaciónConsulte las Secciones 3.2 y 3.3 para obtener más detalles.
  De manera similar, para la ii-ésima parte de la red troncal 2Di层,自适应推断可以表达为: X 2D i = F 2D i ( X ~ 2 D i − 1 ) X ~ 2D i − 1 = F caída ( X 2D i − 1 , S ) ⊙ X 2D i − 1 S = puntuación F ( X 2D i − 1 ) X_\text{2D}^i=\mathcal{F}_\text{2D}^i(\tilde{X}_{2D}^{i-1}) \\\tilde{X}_\text{2D}^{i-1}=F_\text{drop}(X_\text{2D}^{i-1},S)\odot X_\text{2D} ^{i-1}\\S=F_\text{puntuación}(X_\text{2D}^{i-1})X2Dyo=F2Dyo(X~2D_ _yo 1)X~2Dyo 1=Fsoltar( X2Dyo 1,S )X2Dyo 1S=Fpuntuación( X2Dyo 1)

3.2 Diseño de predictores de importancia

  Este artículo utiliza una CNN liviana para predecir la puntuación de importancia espacial de cada ubicación a partir de las características de entrada.

inferir

  El proceso de inferencia del predictor se puede expresar como: Y pred = F pred ( X BEV ; Θ pred ) Y_\text{pred}=F_\text{pred}(X_\text{BEV};\Theta_\text{pred })Yantes=Fantes( XBEV;Thantes) dondeF pred F_\text{pred}FantesEl parámetro es Θ pred \Theta_\text{pred}ThantesEl predictor, la salida es un mapa de calor de un solo canal Y pred ∈ RW × H Y_\text{pred}\in\mathbb{R}^{W\times H}YantesRAncho × Alto . Intuitivamente, hay menos redundancia en el espacio vertical, por lo que comprimir el espacio vertical tiene una mejora limitada en la eficiencia; además, es difícil predecir la importancia en el espacio 3D. Tenga en cuenta que el predictor se compone de múltiples convoluciones agrupadas, la resolución de entrada es 1/8 de la resolución BEV original y sus pesos se comparten entre diferentes capas de la red troncal 3D y 2D, lo que puede reducir los parámetros y los cálculos.

tren

  Dado que descartar una gran cantidad de puntos fuera del cuadro delimitador solo degrada ligeramente el rendimiento, lo que indica que el centro del cuadro delimitador debería tener mayor importancia. Este artículo sigue el método CenterPoint y genera un mapa de calor real M gt ​​​​M_\text{gt} agregando un núcleo gaussiano con un valor máximo en el centro del objeto.METROgt. El entrenamiento se realiza utilizando la función de pérdida del error cuadrático medio (MSE).

3.3 Filtrado espacial guiado por densidad

  Puntuación de predicción Y pred Y_\text{pred}YantesPuede representar eficazmente la importancia relativa de las características de entrada, pero la nube de puntos es densa cerca y escasa en la distancia. El predictor tenderá a predecir una mayor importancia en áreas densas e ignorará los objetos distantes. Este artículo utiliza la densidad BEV de la nube de puntos para ajustar la puntuación del predictor: S = F puntuación ( F_\text{pred}(X;\Theta_\text{pred})\cdot D_g^\betaS=Fpuntuación( XBEV)=Fantes( X ;Thantes)Dgramobdonde D g D_gDgramoes el tamaño de ggMapa de calor de densidad de g después de la agrupación del núcleo, β \betaβ es un hiperparámetro que ajusta la distribución de densidad para que las puntuaciones previstas y la distribución de densidad tengan la misma varianza.

3.4 Normalización de lotes que preserva la escasez

  Dado que el mapa de características BEV es escaso, si se utilizan métodos convencionales, perderá su escasez después de pasar la primera capa BN y se desperdiciará una gran cantidad de espacio para almacenar características de fondo con menos información.
  La solución directa es realizar BN solo en píxeles que no estén vacíos, pero esto provocará un entrenamiento inestable y un rendimiento reducido porque daña la relación relativa de las características. Por lo tanto, este artículo realiza mejoras y propone una "normalización por lotes que preserva la escasez" (SP-BN), que no resta el valor medio de las características cuando se realiza BN en píxeles no vacíos. De esta manera, los píxeles distintos de cero se pueden distinguir de los píxeles del fondo. La expresión de SP-BN es la siguiente: x ^ i ( k ) = xi ( k ) ( σ B ( k ) ) 2 + ϵ \hat{x}_i^{(k)}=\frac{x_i^{ (k )}}{\sqrt{(\sigma_B^{(k)})^2+\epsilon}}X^i( k )=( pag.B( k ))2+ϵ Xi( k )donde σ B ( k ) \sigma_B^{(k)}pagB( k )es la desviación estándar. Al reemplazar BN con SP-BN, la escasez de BEV se puede aumentar significativamente sin degradación del rendimiento.

"Dañar la relación relativa de las características" se puede entender así: suponiendo que los valores de píxeles distintos de cero son todos iguales (la varianza es 0), realizar BN en píxeles no vacíos dará como resultado que todos los píxeles sean 0 y el primer plano y el fondo se vuelven indistinguibles.

4. Experimentar

4.1 Detalles de implementación

Diseño de inferencia adaptativa

  Este artículo solo agrega inferencia adaptativa a algunas capas de las redes troncales 3D y 2D.

4.2 Comparación de desempeño y eficiencia

  Los resultados experimentales muestran que el modelo que agrega Ada3D puede lograr un rendimiento comparable al del modelo original, pero el tiempo de inferencia y el consumo de almacenamiento se pueden reducir considerablemente. Ajustando la tasa de caída R drop R_\text{drop}Rsoltar, se puede inferir bajo diferentes presupuestos de recursos. En comparación con los métodos de modelo comprimido, Ada3D puede lograr una inferencia más rápida con una menor degradación del rendimiento.

4.3 Experimento de hardware

  Después de los experimentos, se pueden sacar las siguientes conclusiones:

  1. Después de usar SP-BN para reemplazar BN según el modelo original , se puede obtener un mapa de características BEV más escaso, lo que aumenta en gran medida la eficiencia de inferencia de la red troncal 2D.
  2. La latencia de un extremo a otro de la red troncal 3D está relacionada con la tasa de caída.
  3. Ada3D es más efectivo con escenas más grandes y voxelización más fina. A su vez, aumentar la eficiencia puede reducir aún más el tamaño del vóxel y, por tanto, mejorar el rendimiento.

5. Análisis y discusión

5.1 Estudios de ablación

  El predictor de importancia evalúa con precisión la importancia de las características de entrada . Los experimentos muestran que el predictor reconoce características dentro de cuadros delimitadores; sólo muy pocas características han evaluado incorrectamente su importancia.
  La guía de densidad evita descartar pequeños objetos distantes . El uso exclusivo de predictores resultó en una degradación significativa del rendimiento, especialmente para objetos pequeños. La guía de densidad compensa los objetos pequeños y distantes que se predice que serán de poca importancia debido a las escasas nubes de puntos. El uso únicamente de puntuaciones o densidades de predictores hará que se descarten puntos dentro de algunos cuadros delimitadores, lo que afectará el rendimiento.
  SP-BN conserva la escasez de BEV sin afectar el rendimiento .

5.2 Análisis de la inferencia adaptativa

  Ada3D introduce una sobrecarga insignificante . Debido a la baja resolución de entrada y al uso de convoluciones agrupadas, la sobrecarga del predictor en el momento de la prueba es solo el 1% del detector 2D.
  Ada3D puede mejorar el rendimiento . La inferencia adaptativa puede incluso mejorar el rendimiento debido a la posibilidad de descartar ruido.

Supongo que te gusta

Origin blog.csdn.net/weixin_45657478/article/details/132134960
Recomendado
Clasificación