Interpretación en papel--K-Radar: Detección de objetos de radar 4D para conducción autónoma en diversas condiciones climáticas

Resumen

A diferencia de las cámaras RGB que usan bandas de luz visible (384 ~ 769 THz) y los lidars que usan bandas infrarrojas (361 ~ 331 THz), los radares usan bandas de radio (77 ~ 81 GHz) con longitudes de onda relativamente largas, por lo que también se pueden usar en malas condiciones. clima Se pueden hacer mediciones confiables. Desafortunadamente, los conjuntos de datos de radar existentes solo contienen relativamente pocas muestras en comparación con los conjuntos de datos de cámaras y lidar existentes. Esto puede dificultar el desarrollo de técnicas complejas de aprendizaje profundo basadas en datos basadas en la percepción del radar . Además, la mayoría de los conjuntos de datos de radar existentes solo proporcionan datos de tensor de radar 3D (3DRT), que contienen mediciones de potencia a lo largo de las dimensiones Doppler, rango y azimut. Estimar el cuadro delimitador 3D de un objeto de 3DRT es un desafío debido a la ausencia de información de elevación. En este trabajo, presentamos KAIST-Radar (K-Radar), un novedoso conjunto de datos de detección de objetos a gran escala y un punto de referencia que contiene 35 000 fotogramas de datos de tensor de radar 4D (4DRT), a lo largo del Doppler Le, la distancia, el acimut y las medidas de las dimensiones de elevación. energía, así como etiquetas de cuadro delimitador 3D cuidadosamente anotadas para objetos en el camino. El radar k cubre condiciones de manejo desafiantes, como clima severo (niebla, lluvia y nieve) en varias estructuras de carreteras (carreteras urbanas, suburbanas, callejones y autopistas). Además de 4DRT, también proporcionamos lidar de alta resolución calibrado con precisión, cámaras de sonido envolvente y levantamientos asistidos por RTK-GPS. También proporcionamos una red neuronal de línea de base basada en 4drt para la detección de objetos (Red neuronal de línea de base) y mostramos que la información de altura es crucial para la detección de objetos en 3D. Al comparar una red neuronal de referencia con una red neuronal basada en LIDAR de estructura similar, demostramos que el radar 4D es un sensor más robusto en condiciones climáticas adversas. Todos los códigos se pueden obtener en https://github.com/kaist-avelab/k-radar.

1. Introducción

Un sistema de conducción autónoma generalmente consta de módulos secuenciales como percepción, planificación y control. Dado que los módulos de planificación y control dependen de la salida del módulo de percepción, la solidez del módulo de percepción, incluso en condiciones adversas de conducción, es crucial.

Recientemente, varios trabajos han propuesto módulos de percepción basados ​​en aprendizaje profundo para la conducción autónoma, que han mostrado un rendimiento notable en tareas como la detección de carriles y la detección de objetos. Estos trabajos a menudo usan imágenes RGB como entrada a las redes neuronales, ya que hay una gran cantidad de conjuntos de datos públicos a gran escala disponibles para la percepción basada en cámaras. Además, la estructura de datos de la imagen RGB es relativamente simple, la dimensión de los datos es relativamente baja y, a menudo, existe una alta correlación entre los píxeles adyacentes. Esta simplicidad permite que las redes neuronales profundas aprendan la representación subyacente de las imágenes y reconozcan objetos en ellas.

Desafortunadamente, las cámaras son propensas a tener poca iluminación, se oscurecen fácilmente con las gotas de lluvia y los copos de nieve, y no pueden conservar la información de profundidad, que es fundamental para una comprensión precisa de la escena 3D del entorno. LiDAR, por otro lado, emite activamente su señal de medición en el espectro infrarrojo, por lo que los resultados de la medición apenas se ven afectados por las condiciones de luz. LiDAR también puede proporcionar mediciones de profundidad precisas con una resolución de centímetros. Sin embargo, las mediciones de lidar aún se ven afectadas por el clima adverso porque la longitud de onda de la señal (λ = 850nm ~ 1550nm) no es lo suficientemente larga para atravesar gotas de lluvia o copos de nieve.

Al igual que el lidar, los sensores de radar emiten ondas de forma activa y miden los reflejos. Las ondas de radio (λ≈4 mm) emitidas por el radar pueden atravesar gotas de lluvia y copos de nieve. Por lo tanto, las mediciones de radar son sólidas en condiciones climáticas severas y con poca luz. Esta robustez se demuestra en (Abdu et al., 2021), donde se demostró que un módulo de percepción basado en radar de onda continua modulada en frecuencia (FMCW) es altamente preciso incluso en condiciones climáticas adversas, y podría implementarse fácilmente en hardware.

A medida que los radares FMCW con salidas de tensor de radar denso (RT) están disponibles, muchos estudios han propuesto redes de detección de objetos basadas en RT con un rendimiento de detección comparable a las redes de detección de objetos basadas en cámaras y LiDAR. Sin embargo, estos trabajos se limitan a la detección de objetos bidimensionales a vista de pájaro (BEV) porque los radares FMCW utilizados en los trabajos existentes solo proporcionan mediciones de potencia de tensor de radar tridimensional (3DRT) a lo largo del Doppler, rango y dimensiones de azimut.

En este estudio, presentamos el conjunto de datos de detección de objetos 3D basado en 4D Radar Tensor (4DRT) y el kist-Radar (K-Radar) de referencia. A diferencia de 3DRT convencional, 4DRT contiene mediciones de potencia a lo largo de las dimensiones Doppler, rango, azimut y elevación, lo que preserva la información espacial 3D, lo que permite una percepción 3D precisa, como la detección de objetos 3D usando LiDAR. Hasta donde sabemos, K-Radar es el primer conjunto de datos a gran escala y punto de referencia basado en 4drc, de varias estructuras viales (p. ej., urbanas, suburbanas, autopistas), tiempo (p. ej., día, noche) y condiciones climáticas (p. ej., despejado, niebla, lluvia, nieve) para recolectar 35k cuadros. Además de 4DRT, k-radar también proporciona nubes de puntos lidar (lpc) de alta resolución, imágenes RGB envolventes de 4 cámaras estéreo y datos RTK-GPS e IMU para automóviles autónomos.

 Figura 1: Descripción general del procesamiento de señales para el radar FMCW y visualización de los dos tipos de datos principales, a saber, Radar Tensor (RT) y Radar Point Cloud (RPC). La RT es una matriz de datos densa, y la potencia se mide en todos los elementos a lo largo de la dimensión mediante una operación de transformada rápida de Fourier (FFT) aplicada a la señal FMCW. Dado que todos los elementos son distintos de cero, RT proporciona información densa sobre el entorno con una pérdida mínima, pero requiere altos requisitos de memoria. Por otro lado, RPC es un tipo de datos que extrae información de destino (es decir, grupo de candidatos de objetos) en forma de nube de puntos con una pequeña cantidad de memoria mediante la aplicación de un algoritmo de tasa constante de falsas alarmas (CFAR) a RPC. Dado que FFT y CFAR son fáciles de implementar directamente en el hardware, muchos sensores de radar proporcionan RPC como salida. Sin embargo, debido al algoritmo CFAR, RPC puede perder mucha información sobre el entorno.

Dado que las representaciones de alta dimensión 4DRT no son intuitivas para los humanos, explotamos LPC de alta resolución para permitir que los anotadores etiqueten con precisión cuadros delimitadores 3D de objetos en la carretera en la nube de puntos visualizada. El cuadro delimitador 3D se puede convertir fácilmente de lidar a marco de coordenadas de radar, porque proporcionamos parámetros de calibración espacial y temporal, corrigiendo el desplazamiento debido a la separación del sensor y las mediciones asincrónicas, respectivamente. K-Radar también proporciona una identificación de seguimiento única para cada objeto anotado, lo cual es útil para rastrear objetos a lo largo de una secuencia de fotogramas. Consulte el Apéndice K.7 para obtener ejemplos de información sobre el seguimiento.

 Figura 2: Una muestra del conjunto de datos de K-Radar bajo diversas condiciones climáticas. Cada columna muestra (1) 4drt, (2) imágenes de la vista frontal de la cámara, (3) nubes de puntos LiDAR (LPC) en diferentes condiciones climáticas. 4drt se representa en un sistema de coordenadas cartesianas bidimensional (BEV) utilizando una serie de procedimientos de visualización descritos en la Sección 3.3. En este ejemplo, los cuadros delimitadores amarillo y rojo representan la clase de automóvil y la clase de autobús o camión, respectivamente. El Apéndice A contiene más muestras del conjunto de datos de K-Radar bajo diversas condiciones climáticas.

Para demostrar la necesidad de un módulo de percepción basado en 4DRT, proponemos una red neuronal de referencia (Baseline NN) para la detección de objetos 3D que utiliza directamente 4DRT como entrada. A partir de los resultados experimentales en K-radar, la red neuronal de línea de base basada en 4drd supera a la red basada en lidar en tareas de detección de objetos 3D, especialmente en condiciones climáticas adversas. También mostramos que una red neuronal basada en 4DRT de referencia que utiliza información de altura supera significativamente a una red que utiliza solo información de BEV. Además, lanzamos kits de desarrollo completos (devkits), que incluyen: (1) código de capacitación/evaluación para redes neuronales basadas en 4drn, (2) herramientas de etiquetado/calibración y (3) herramientas de visualización para acelerar la investigación en el campo basada en 4drn de percepción

En general, nuestras contribuciones son las siguientes:

• Proponemos un nuevo conjunto de datos y puntos de referencia basados ​​en 4drd, K-Radar, para la detección de objetos en 3D. Hasta donde sabemos, K-Radar es el primer conjunto de datos y referencia a gran escala basado en 4drc con iluminación, hora del día y condiciones climáticas diversas y desafiantes. Con etiquetas delimitadoras en 3D cuidadosamente anotadas y sensores multimodales, K-Radar también se puede utilizar para otras tareas de conducción autónoma, como el seguimiento de objetos y la odometría.

• Proponemos una red neuronal de referencia para la detección de objetos 3D que utiliza directamente 4DRT como entrada y verificamos que la información de altura de 4DRT es esencial para la detección de objetos 3D. También demostramos la solidez de la percepción basada en 4drd para la conducción autónoma, especialmente en condiciones climáticas adversas.

• Proporcionamos un kit de desarrollo que incluye: (1) capacitación/evaluación, (2) etiquetado/calibración y (3) herramientas de visualización para acelerar la percepción basada en 4drt en la investigación de conducción autónoma.

El resto de este documento está organizado de la siguiente manera. La Sección 2 presenta los conjuntos de datos existentes y los puntos de referencia relacionados con la percepción de conducción autónoma. La sección 3 explica el conjunto de datos de K-Radar y la referencia nn. La Sección IV analiza los resultados experimentales de la red neuronal de referencia en el conjunto de datos de K-Radar. La Sección V resume y discute las limitaciones de este documento.

2. Trabajo relacionado

Las redes neuronales profundas generalmente necesitan recopilar una gran cantidad de muestras de entrenamiento de diferentes condiciones para obtener un excelente rendimiento de generalización. En la conducción autónoma, hay una gran cantidad de conjuntos de datos de detección de objetos que proporcionan datos a gran escala de varias modalidades de sensores, como se muestra en la Tabla 1.

Tabla 1: Comparación de conjuntos de datos de detección de objetos para conducción autónoma con puntos de referencia. HR y LR se refieren a LIDAR de alta resolución con más de 64 canales y LIDAR de baja resolución con menos de 32 canales, respectivamente. Cuadro delimitador, ID de objetivo y odómetro. son la anotación del cuadro delimitador, el ID de seguimiento y la odometría, respectivamente. El texto en negrita indica las mejores entradas en cada categoría.

 KITTI es uno de los conjuntos de datos de detección de objetos más antiguos y ampliamente utilizados para la conducción autónoma, que proporciona mediciones de cámara y lidar, así como parámetros de calibración precisos y etiquetas de cuadro delimitador 3D. Sin embargo, la cantidad de muestras y la diversidad del conjunto de datos son relativamente limitadas, ya que los marcos de 15K del conjunto de datos se recopilan principalmente en áreas urbanas diurnas. Por otro lado, Waymo y NuScenes brindan una gran muestra de cuadros de 230K y 40K respectivamente. En ambos conjuntos de datos, los marcos se recopilan tanto de día como de noche, lo que aumenta la diversidad de los conjuntos de datos. Además, NuScenes proporciona Radar Point Cloud (RPC) 3D, y Nabati y Qi (2021) demostraron que el uso del radar como entrada auxiliar para una red neuronal puede mejorar el rendimiento de detección de la red. Sin embargo, debido a la operación de umbral de CFAR, RPC pierde mucha información y conduce a un rendimiento de detección deficiente cuando se utiliza como entrada principal de la red. Por ejemplo, en el conjunto de datos de NuScenes, el rendimiento de vanguardia de la detección de objetos 3D basada en lidar es del 69,7 % mAP, mientras que la basada en radar solo tiene un 4,9 % mAP.

En la literatura, existen varios conjuntos de datos de detección de objetos basados ​​en 3DRT para la conducción autónoma. CARRADA (Ouaknine et al., 2021) proporciona tensores de radar en dimensiones de rango-acimut y rango-Doppler y anota hasta dos objetos en un entorno controlado (plano ancho). Por otro lado, Zenar (Mostajabi et al., 2020), radiación (Sheeny et al., 2021) y RADDet (Zhang et al., 2021) proporcionan tensores de radar recogidos en entornos de carreteras reales, pero debido a la falta de altitud. en la información 3drt, solo se pueden proporcionar etiquetas de cuadro delimitador 2D BEV. CRUW (Wang et al., 2021b) proporciona una gran cantidad de 3drts, pero las anotaciones solo brindan las ubicaciones de puntos 2D de los objetos. VoD (Palffy et al., 2022) y Asytx (Meyer y Kuschk, 2019) proporcionan etiquetas de cuadro delimitador 3D con 4drpc. Sin embargo, no se proporciona 4drt denso y la cantidad de muestras en el conjunto de datos es relativamente pequeña (es decir, cuadros de 8.7K y 0.5K). Hasta donde sabemos, el K-Radar propuesto es el primer conjunto de datos a gran escala que proporciona mediciones 4DRT, así como etiquetas de cuadro delimitador 3D en diferentes condiciones.

Tabla 2: Comparación de conjuntos de datos de detección de objetos y puntos de referencia para la conducción autónoma. D/n se refiere al día y la noche. El texto en negrita indica las mejores entradas en cada categoría.

 Los automóviles autónomos deben poder operar de manera segura en condiciones climáticas severas, por lo tanto, la disponibilidad de datos de clima severo en conjuntos de datos de conducción autónoma es fundamental. En la literatura, los conjuntos de datos BDD100K (Yu et al., 2020) y de radiación contienen marcos adquiridos en condiciones climáticas adversas, como se muestra en la Tabla 2. Pero BDD100K solo proporciona imágenes frontales RGB y la radiación solo proporciona LPC de baja resolución de 32 canales. Mientras tanto, el k-radar propuesto proporciona imágenes estereoscópicas RGB de 360 ​​grados y LPC de alta resolución de 4DRT, 64 y 128 canales, lo que permite el desarrollo de un enfoque multimodal que utiliza radar, lidar y cámara para resolver varios problemas de Conducción autónoma en condiciones meteorológicas adversas: un problema de percepción.

3.K-Radar

En esta sección, describimos la configuración de los sensores, el proceso de recopilación de datos y la distribución de datos utilizados para construir el conjunto de datos de K-Radar. Luego explicamos la estructura de datos de 4DRT, así como los procedimientos de visualización, calibración y etiquetado. Finalmente, proponemos una red de referencia para la detección de objetos 3D que puede consumir directamente 4DRT como entrada.

3.1 Descripción del sensor de radar K

Para recopilar datos en condiciones climáticas severas, instalamos cinco sensores a prueba de agua con clasificación IP66 (enumerados en el Apéndice B) de acuerdo con la configuración que se muestra en la Figura 3. En primer lugar, el radar 4D se instala en la parrilla delantera del automóvil para evitar el fenómeno de trayectos múltiples causado por el capó o el techo del automóvil. En segundo lugar, se instalan respectivamente un lidar de largo alcance de 64 canales y un lidar de alta resolución de 128 canales en el centro del techo a diferentes alturas (Fig. 3-(a)). Los LPC de largo alcance se utilizan para marcar con precisión objetos a varias distancias, mientras que los LPC de alta resolución proporcionan información densa con un campo de visión vertical (FOV) amplio (es decir, 44,5 grados). En tercer lugar, coloque una cámara estéreo en la parte delantera, trasera, izquierda y derecha del vehículo para generar 4 imágenes RGB estéreo, cubriendo un campo de visión de 360 ​​grados desde la perspectiva de la conducción autónoma. Finalmente, una antena RTK-GPS y dos sensores IMU se colocan en la parte trasera del vehículo para lograr un posicionamiento preciso del vehículo ego.

 Figura 3: Conjunto de sensores K-Radar y sistema de coordenadas de cada sensor. (a) muestra el estado del sensor después de conducir con mucha nieve durante 5 minutos. A medida que el automóvil avanza, la nieve se acumula en gran medida frente al sensor y cubre la lente de la cámara frontal, las superficies Lidar y Radar, como se muestra en la Figura (a). Por lo tanto, durante las fuertes nevadas, la cámara frontal y Lidar no pueden obtener la mayor parte de la información ambiental. Por el contrario, los sensores de radar son resistentes a las inclemencias del tiempo porque las ondas emitidas pueden atravesar las gotas de lluvia y los copos de nieve. Este diagrama destaca (1) la importancia del radar en condiciones climáticas adversas, especialmente en nevadas intensas, y (2) la necesidad de sensores y diseños adicionales para tener en cuenta las condiciones climáticas adversas (p. ej., en los limpiaparabrisas delanteros lidar). (b) es la posición de instalación de cada sensor y el sistema de coordenadas de cada sensor.

3.2 Recopilación y distribución de datos

La mayoría de los marcos de clima severo se recopilaron en Gangwon-do, que tiene la mayor nevada anual del país. Por otro lado, la mayoría de los encuadres relacionados con el entorno urbano se recogen en Daejeon, Corea del Sur. El proceso de recopilación de datos produjo 35 000 fotogramas de mediciones de sensores multimodales, lo que constituye el conjunto de datos de K-Radar. Clasificamos los datos recopilados en varias categorías de acuerdo con los criterios enumerados en el Apéndice c. Además, dividimos el conjunto de datos en conjuntos de entrenamiento y prueba, y cada condición aparece en ambos conjuntos de manera equilibrada, como se muestra en la Figura 4.

 Figura 4: Distribución de datos por hora de recolección (tarde/día), condiciones climáticas y tipos de caminos. El gráfico circular del medio muestra la distribución de datos durante el tiempo de recopilación, mientras que los gráficos circulares izquierdo y derecho muestran la distribución de datos de las condiciones climáticas y los tipos de carreteras para trenes y grupos de prueba, respectivamente. En el borde exterior de cada pastel indicamos el tiempo de adquisición, las condiciones climáticas y el tipo de carretera, y en la parte interior indicamos el número de fotogramas en cada distribución.

Hay un total de 93,3 etiquetas de cuadro delimitador 3D para objetos (automóviles, autobuses o camiones, peatones, bicicletas y motocicletas) en una carretera con un radio longitudinal de 120 m y un radio lateral de 80 m desde el vehículo ego. Tenga en cuenta que solo anotamos los objetos que aparecen en el eje longitudinal positivo, es decir, los que están frente al vehículo del ego.

En la Figura 5, mostramos la distribución de las categorías de objetos y las distancias de los objetos desde el vehículo del ego en el conjunto de datos de K-Radar. El número de objetos dentro de los 60 metros del vehículo propio es el más grande. Dentro del rango de distancia de 0m ~ 20m, 20m ~ 40m y 40m ~ 60m, el número de objetos es el más grande entre 10K ~ 15K, y dentro de la distancia rango de más de 60 m, el número de objetos alrededor de 7K es el más grande. Por lo tanto, K-Radar se puede utilizar para evaluar el rendimiento de las redes de detección de objetos 3D en objetos a diferentes distancias.

 Figura 5: Distribución de categorías de objetos y distancias al ego-car para las divisiones de tren/prueba proporcionadas en el conjunto de datos de K-Radar. Escribimos el nombre de la clase del objeto y la distancia al vehículo del ego en la capa exterior del gráfico circular, y el número de objetos en cada distribución en el gráfico circular interior.

3.3 Visualización de datos, calibración, proceso de etiquetado

En contraste con el tensor de radar 3D (3DRT), que carece de información de altitud, el tensor de radar 4D (4DRT) es un tensor de datos denso lleno de mediciones de potencia en cuatro dimensiones: Doppler, rango, azimut y elevación. Sin embargo, la dimensión adicional de los datos densos plantea desafíos al visualizar 4DRT en datos dispersos como nubes de puntos (Fig. 2). Para abordar este problema, visualizamos el 4DRT como un mapa de calor 2D en coordenadas cartesianas a través de un proceso heurístico como se muestra en la Fig. -2D) y visualización de mapa de calor 2D en vista lateral (SV-2D). Nos referimos colectivamente a estos mapas de calor 2D como bbs-2D.

Con BEV-2D, podemos verificar visualmente la robustez del radar 4D ante condiciones climáticas adversas, como se muestra en la Fig. 2. Como se mencionó anteriormente, las mediciones de la cámara y el lidar pueden deteriorarse en condiciones climáticas adversas, como lluvia, aguanieve y nieve. En la Fig. 2-(e,f), mostramos que las mediciones LIDAR de un objeto distante se pierden en condiciones de mucha nieve. Sin embargo, BEV-2D para 4DRT muestra claramente mediciones de alta potencia en los bordes de los cuadros delimitadores de objetos.

 Figura 6: (a) proceso de visualización de 4DRT y (b) resultados de visualización de 4DRT. (a) es el proceso de visualización de 4DRT (coordenadas polares) en BFS - 2D (coordenadas cartesianas), que se divide en tres pasos: (1) extracción de distancia, acimut y tensor de radar 3D de dimensión de ángulo y elevación (3DRT-RAE) mediciones, (2) convertir 3DRT-RAE (coordenadas polares) a 3DRT-XYZ (coordenadas cartesianas), (3) eliminando las tres dimensiones Uno, lo que finalmente visualiza el 4DRT como un sistema de coordenadas cartesianas bidimensional. (b) es un ejemplo de visualización de información 4DRT-3D en BFS-2D a través del proceso de (a). También mostramos la imagen de la vista frontal de la cámara y el LPC del mismo marco en el lado superior de (b), y marcamos el cuadro delimitador del automóvil en rojo. Como se muestra en (b), 4DRT está representado por tres vistas (es decir, BEV, vista lateral y vista frontal). Notamos que las mediciones de alta potencia se realizan cuando se miran las ruedas, no la carrocería del vehículo, al comparar imágenes del modelo real del vehículo con vistas laterales y frontales del objeto. Esto se debe a que los reflejos de las ondas de radio se producen principalmente en las ruedas de metal (Brisken et al., 2018), más que en la carrocería de un vehículo de plástico reforzado.

Incluso con BFS-2D, sigue siendo un desafío para los anotadores humanos reconocer la forma de los objetos que aparecen en el marco y anotar con precisión los cuadros delimitadores 3D correspondientes. Por lo tanto, creamos una herramienta que admite la anotación de cuadros delimitadores 3D en lpc, donde las formas de los objetos son más fáciles de reconocer. Además, usamos BEV-2D para ayudar a anotar a los humanos en situaciones en las que se pierden las mediciones LIDAR debido a condiciones climáticas adversas. Consulte el Apéndice D.1 para obtener más información.

También proponemos una herramienta para la calibración fotograma a fotograma de BEV-2D y LPC, convirtiendo etiquetas de cuadro delimitador 3D de cuadros de coordenadas lidar a cuadros de coordenadas de radar 4D. La herramienta de calibración admite una resolución de 1 cm por píxel con un error máximo de 0,5 cm. Los detalles de la calibración entre el radar 4D y el lidar se dan en el Apéndice D.2.

Además, obtuvimos con precisión los parámetros de calibración entre el Lidar y la cámara a través de una serie de procesos en el Apéndice D.3. El proceso de calibración entre el lidar y la cámara puede hacer que el cuadro delimitador 3D y el lpc se proyecten con precisión en la imagen de la cámara, lo cual es crucial para la investigación de fusión de sensores multimodales y puede usarse para la investigación de estimación de profundidad monocular para generar mapas de profundidad densos.

3.4 Red neuronal de referencia de K-Radar

Proporcionamos dos redes neuronales de referencia para demostrar la importancia de la información de altura para la detección de objetos en 3D: (1) Radar Tensor Network with Height (RTNH), que extrae mapas de características (FM) de RT con CNN dispersa en 3D, explotando así la información de altura; ( 2) Radar Tensor Network (RTN) sin altura, que extrae mapas de características (FM) de RT con CNN 2D, pero no utiliza información de altura.

Como se muestra en la Figura 7, tanto RTNH como RTN consisten en preacondicionamiento de columna, cuello y cabeza. El preprocesamiento convierte 4DRT de coordenadas polares a cartesianas y extrae 3DRT-XYZ dentro de la región de interés (RoI). Tenga en cuenta que reducimos la dimensión Doppler tomando el promedio a lo largo de la dimensión. Luego, la red troncal extrae los FM que contienen características importantes para la predicción del cuadro delimitador. La FM conectada generada por la cabeza a través del cuello predice cuadros delimitadores en 3D.

Figura 7: dos redes neuronales de referencia utilizadas para validar el rendimiento de la detección de objetos 3D basada en 4drd.

Las estructuras de red de RTNH y RTN se describen en detalle en el Apéndice E, a excepción de la red troncal, las otras estructuras son similares. Construimos las redes troncales de RTNH y RTN con una red troncal convolucional dispersa 3D (3D-scb) y una red troncal convolucional densa 2D (2D-dcb), respectivamente. 3D-scb utiliza convoluciones dispersas 3D para codificar información espacial 3D (X, Y, Z) en el FM final. Elegimos usar convolución escasa en RT escasa (el 30 % superior de las mediciones de potencia en RT), porque la convolución densa en RT sin procesar requiere mucha memoria y cómputo y no es adecuada para aplicaciones de conducción autónoma en tiempo real. A diferencia de 3D-SCB, 2D-DCB utiliza convoluciones 2D, por lo que solo la información espacial 2D (X, Y) se codifica en el FM final. Por lo tanto, el FM final producido por 3D-scb contiene información 3D (con altura), mientras que el FM final producido por 2D-dcb contiene solo información 2D (sin altura).

4. Experimenta

En esta sección, demostramos la solidez de la percepción basada en 4DRD para la conducción autónoma en diversas condiciones climáticas a fin de encontrar una comparación del rendimiento de detección de objetos 3D entre una red neuronal de referencia y una red neuronal basada en LiDAR con una estructura similar para columnas de puntos. También discutimos la importancia de la información de altura al comparar el rendimiento de la detección de objetos 3D entre la red neuronal de línea base con la red troncal 3D-scb (RTNH) y la red neuronal de línea base con la red troncal 2D-DCB (RTN).

4.1 Configuración y medición del experimento

Implementamos redes neuronales de referencia y PointPillars usando PyTorch 1.11.0 en una máquina Ubuntu con una GPU RTX3090. Establecemos el tamaño del lote en 24 y entrenamos la red durante 10 épocas utilizando el optimizador Adam con una tasa de aprendizaje de 0,001. Tenga en cuenta que establecemos el objetivo de detección como la clase de automóvil con la mayor cantidad de muestras en el conjunto de datos de K-Radar.

En los experimentos, evaluamos el rendimiento de detección de objetos 3D utilizando la métrica de precisión promedio (AP) basada en IOU ampliamente utilizada. Proporcionamos predicciones de cuadro delimitador AP para BEV (APBEV) y 3D (AP3D), donde una predicción se considera un objeto verdadero si el IOU supera 0,3.

Tabla 3 Comparación de rendimiento de redes neuronales de referencia con y sin información de altura.

 4.2 Comparación entre RTN y RTNH

Comparamos el rendimiento de detección de RTNH y RTN en la Tabla 3. Podemos observar que RTNH supera a RTN en un 9,43 % y un 1,96 % en AP3D y APBEV, respectivamente. Especialmente en AP3D, RTNH supera significativamente a RTN, lo que demuestra la importancia de la información de altura disponible en 4DRT para la detección de objetos 3D. Además, RTNH requiere menos memoria de GPU en comparación con RTN porque utiliza la convolución escasa de memoria eficiente mencionada en la Sección 3.4.

4.3 Comparación entre RTNH y PointPillars

Tabla 4 Comparación de rendimiento de redes neuronales de radar y lidar en diferentes condiciones climáticas

 Mostramos en la Tabla 4 la comparación del rendimiento de detección entre RTNH y PointPillars, una red de detección basada en Lidar con una estructura similar. En condiciones de nieve intensa, el rendimiento de detección de BEV y 3D de la red basada en lidar cae un 18,1 % y un 14,0 %, respectivamente, en comparación con las condiciones normales. Por el contrario, el rendimiento de detección RTNH basado en radar 4D apenas se ve afectado por el clima adverso, y el rendimiento de detección de objetos BEV y 3D en condiciones de nieve intensa es comparable o mejor que en condiciones normales. Los resultados demuestran la solidez de la percepción basada en radar 4D en condiciones meteorológicas adversas. Proporcionamos resultados cualitativos y discusión adicional sobre otras condiciones climáticas en el Apéndice F.

5. Limitaciones y conclusiones

En esta sección, discutimos las limitaciones de K-Radar, resumimos este trabajo y sugerimos futuras líneas de investigación.

5.1.4 Limitación de cobertura de FOV de DRT

Como se mencionó en la Sección 3.1, K-Radar proporciona mediciones de radar 4D en la dirección de avance con un campo de visión de 107 grados. La cobertura de medición es más limitada que el campo de visión de 360 ​​grados de lidar y cámaras. Esta limitación se deriva del tamaño del 4DRT medido densamente en 4D, que requiere una memoria más grande para almacenar datos en comparación con las imágenes de cámara 2D o LPC 3D. Específicamente, el tamaño de datos 4DRT de K-Radar es de aproximadamente 12 TB, el tamaño de datos de la imagen de la cámara envolvente es de aproximadamente 0,4 TB y el tamaño de datos de LPC es de aproximadamente 0,6 TB. Debido a la gran cantidad de memoria requerida para proporcionar mediciones 4DRT de 360 ​​grados, elegimos registrar solo datos 4DRT en la dirección de avance, lo que puede proporcionar la información más relevante para la conducción autónoma.

5.2 Conclusión

Este documento presenta un conjunto de datos de detección de objetos 3D basado en 4drt y K-Radar de referencia. El conjunto de datos de K-Radar consta de 35 000 cuadros y contiene 4DRT, LPC, imágenes de cámara envolvente y datos de IMU RTK®, todos los cuales se recopilaron en diferentes condiciones climáticas y de tiempo. K-Radar proporciona etiquetas de cuadro delimitador 3D e ID de seguimiento para 93 300 objetos en 5 categorías a distancias de hasta 120 metros. Para verificar la solidez de la detección de objetos basada en radar 4D, presentamos una red neuronal de referencia con 4DRT como entrada. A partir de los resultados experimentales, demostramos la importancia de la información de altura que no se encuentra en 3DRT y la solidez del radar 4D para la detección de objetos 3D en condiciones climáticas adversas. Si bien los experimentos en este trabajo se centran en la detección de objetos 3D basada en 4DRT, K-Radar se puede usar para el seguimiento de objetos basado en 4DRT, SLAM y varias otras tareas de percepción. Por lo tanto, esperamos que K-Radar pueda acelerar el trabajo de la conducción autónoma basada en la percepción 4DRT.

Enlace original:

[2206.08171] K-Radar: detección de objetos de radar 4D para conducción autónoma en diversas condiciones climáticas (arxiv.org)

Supongo que te gusta

Origin blog.csdn.net/weixin_41691854/article/details/127754382
Recomendado
Clasificación