Lectura de papel de detección de línea de carril 3D: 3DLaneNet


Este documento es el trabajo pionero de detección de carriles en 3D basada en imágenes basada en aprendizaje profundo. Fue propuesto por el Centro de Investigación de General Motors Israel en el ICCV de 2019. El Gen-LaneNet propuesto por Apollo en el ECCV de 2020 y el 3D-LaneNet+ mejorado por el equipo original se introducirá en los siguientes artículos.

Dirección en papel:

https://openaccess.thecvf.com/content_ICCV_2019/papers/Garnett_3D-LaneNet_End-to-End_3D_Multiple_Lane_Detection_ICCV_2019_paper.pdf

Dirección del conjunto de datos de carriles 3D sintéticos: (https://link.zhihu.com/?target=https%3A//sites.google.com/view/danlevi/3dlanes)

0 resumen

Presentamos una red que puede predecir el diseño 3D de los carriles en escenas de carreteras directamente desde una sola imagen. Este trabajo marca el primer intento de resolver esta tarea con la detección de visión en el vehículo sin asumir un ancho de carril constante conocido o depender de un entorno premapeado. Nuestra arquitectura de red, 3D-LaneNet, aplica dos nuevos conceptos: mapeo de perspectiva inversa (IPM) dentro de la red y representación de carril basada en anclaje . Las proyecciones de IPM dentro de la red facilitan el flujo de información de representación dual para vistas regulares de imágenes y vistas superiores. La representación de salida de anclaje por columna permite que nuestro enfoque integral reemplace las heurísticas comunes, como el agrupamiento y el rechazo de valores atípicos, con la estimación de carriles como un problema de detección de objetos . Además, nuestro método maneja explícitamente casos complejos como la fusión y segmentación de carriles. Los resultados se presentan en dos nuevos conjuntos de datos de carriles 3D, uno sintético y otro real. Para la comparación con los métodos existentes, probamos nuestro método en un punto de referencia de detección de carril de solo imagen simple, logrando un rendimiento que es competitivo con el estado del arte.

1 punto de innovación

  1. Se introduce un nuevo problema: detección de carril 3D de fotograma único sin suposiciones geométricas y nuevas métricas de evaluación.
  2. Una arquitectura novedosa de doble ruta que implementa la proyección IPM de funciones dentro de la red.
  3. Una novedosa representación de salida de carril basada en anclas que permite el entrenamiento directo de red de extremo a extremo para la detección de carriles 3D y 2D.
  4. Un método para generar muestras sintéticas estocásticas con topología de carriles (es decir, número de carriles, fusión, división) y variación de forma 3D

2 métodos

2.1 Introducción al marco general

La estructura de red general de 3D LaneNet se muestra en la siguiente figura. Puede ver los canales superior e inferior. El canal superior extrae las características de la vista frontal de entrada original y finalmente predice el ángulo de inclinación θ de la cámara a SIPM para la vista frontal posterior. características a la vista superior características. El canal inferior recibe las características de la vista superior convertidas a partir de las características de la vista frontal en varias escalas, extrae continuamente las características de la vista superior y, finalmente, emite la predicción de datos relacionados con la línea de carril 3D.

inserte la descripción de la imagen aquí

Figura 1 Diagrama de estructura de red LaneNet 3D

Se toma como entrada una sola imagen capturada por una cámara frontal montada en un vehículo, como se muestra en la Figura 2. El documento asume que se conocen los parámetros inherentes de la cámara κ (como la distancia focal, el centro de proyección) y que la cámara está instalada en una posición de balanceo de cero grados en relación con el plano de tierra local (esta suposición tampoco es adecuada ) . No se asumen la altura de la cámara ni los ángulos de inclinación conocidos , ya que estos pueden cambiar debido a la dinámica del vehículo. En el documento, los carriles están representados por líneas centrales de carril y separadores de carril (es decir, lo que a menudo llamamos líneas de carril), como se muestra en la Figura 3. Cada una de estas entidades de carril (línea central o divisor) es una curva 3D representada en coordenadas de cámara (Ccámara). La tarea es detectar la línea central del carril y el conjunto de separadores de carril para una imagen determinada.
inserte la descripción de la imagen aquí

Figura 2 Ubicación de la instalación de la cámara y proyección en la carretera
Inspirándose en la detección de objetos, las anclas se utilizan para definir los carriles candidatos y se utiliza una representación de conjunto refinado para describir la forma de carril 3D precisa de cada ancla. Los anclajes corresponden a las líneas longitudinales en la Fig. 3, y la geometría de carril refinada corresponde a los puntos 3D relativos a los respectivos anclajes. Cada punto de anclaje $X^i_A$ se compone de 2K salidas de red: $(x^i,z^i)=\{(x^i_j,z^i_j)\}^K_{j=1}$ , junto con K coordenadas predefinidas del eje y $y=\{y_i\}^K_{j=1}$ definen el conjunto de puntos de línea de carril 3D. El valor $x^i_j$ es el desplazamiento horizontal relativo a la posición del ancla $X^i_A$, es decir, la salida $(x^i_j,z^i_j)$ representa el punto $(x^i_j+X^i_A ,y_j, z^i,j)\in \mathbb R^{3}$. Además, cada ancla recibe la confianza de que hay un carril asociado con el ancla.

La salida de red de cada punto de anclaje incluye tres tipos: los dos primeros tipos ( c 1 , c 2 ) (c_1,c_2)( do1,C2) representa la línea central del carril y el tercer tipo representa el separador de carril. La asignación de dos líneas centrales posibles a cada ancla produce el soporte de la red para fusionarse y dividirse, es decir, las líneas centrales de los dos carriles están enY ref Y_{ref}Yre fcoinciden y se separan en diferentes lugares de la carretera. Por lo tanto, el tamaño del vector de la capa de predicción final es 3 ⋅ ( 2 ⋅ K + 1 ) × 1 × N 3\cdot(2\cdot K+1)\times 1 \times N3( 2k+1 )×1×N , para cada columnaiii corresponde a un punto de anclaje,i ∈ { 1... N } i\in\{1...N\}i{ 1... N } . La forma de salida de red de cada punto en el punto de anclaje es( xti , zti , pti ) (x^i_t,z^i_t,p^i_t)( Xtyo,ztyo,pagtyo) . La predicción final realiza una supresión no máxima 1D, que es común en la detección de objetos: solo se mantiene el carril con la mayor confianza local (en comparación con los anclajes vecinos izquierdo y derecho). Cada carril después de la supresión no máxima está representado por un pequeño número (K) de puntos 3D, que se transforman en curvas suaves mediante la interpolación spline.

inserte la descripción de la imagen aquí

Representación de salida de la vista superior de la Figura 3

2.2 Introducción al módulo

2.2.1 Proyección de vista superior (proyección de vista superior)

IPM es una homografía que deforma la imagen de vista frontal en una imagen de vista superior virtual, equivalente a aplicar una homografía de rotación de cámara (la vista se gira hacia abajo), seguida de una escala anisotrópica. El documento quiere asegurarse de que cada píxel en la imagen de la vista superior corresponda a una ubicación predefinida en la carretera, independientemente de los parámetros intrínsecos de la cámara y su pose en relación con la carretera. En la Figura 2, las coordenadas de la cámara son Ccamera = (´x´, ´y´, ´z´), las coordenadas de la carretera Croad = (x, y, z), Proad es un plano tangente a la superficie de la carretera local: la z dirección es Proad Normal, y es la proyección de y´on Proad (es decir, el origen es la proyección del centro de la cámara en Proad). Tc2r es 6 DOF. Conversión entre cámara y cámara Croad (traslación 3D y rotación 3D). Dado que se supone que el ángulo de balanceo es cero, Tc2r se define únicamente por el ángulo de inclinación de la cámara θ y su altura sobre el suelo hcam.

Asigne cada punto en Proad a la homografía Hr2i de las coordenadas del plano de la imagen: Proad→Pimg está determinado por Tc2r y κ (referencia: Geometría de vista múltiple en visión artificial). Finalmente, el IPM se obtiene de Hr2i, utilizando un conjunto fijo de parámetros IPM-Params para definir los límites de la región de la vista superior y la escala anisotrópica de metros a píxeles. Las imágenes de la vista superior se generan mediante interpolación bilineal definida por la cuadrícula de muestreo SIPM.

El valor del píxel proyectado es generalmente un número de coma flotante, y los píxeles que lo rodean se muestrean mediante interpolación bilineal.

2.2.2 La capa de transformación proyectiva (capa de transformación de proyección)

Esta parte es principalmente la capa de conversión de proyección marcada en azul en la Figura 1. Esta capa es una implementación específica del módulo de capa de transformación proyectiva [Redes de transformadores espaciales] con ligeros cambios. Realiza un muestreo diferenciable en el mapa de características de entrada correspondiente al espacio del plano de la imagen y genera el mapa de características correspondiente al espacio de vista aérea virtual de la escena mientras conserva la cantidad de canales.

Rama de predicción de proyección de carretera

La primera salida intermedia de la red de ruta de vista de imagen es una estimación del plano de proyección de carretera Proad. Esencialmente, esta rama predice Tc2r, la transformación de la cámara en coordenadas de carretera. Se entrena de manera supervisada. Tc2r determina la homografía de vista superior Hr2i y la cuadrícula de muestreo SIPM, por lo que se requiere Tc2r en el paso de avance de la ruta de vista superior. En el momento de la inferencia, también se utiliza para convertir la salida de la red expresada en Croad a la cámara. Tc2r se define en este caso por la altura de la cámara hcam y el paso θ, por lo que estas son las dos salidas de esta rama. De hecho, la rama de vista frontal predice dos parámetros: altura de la cámara hcam ángulo de paso de la cámara θ (pero la altura no se ve desde la salida predicha de la imagen general).

Cabeza de predicción de carril

Afectados por la detección de objetivos, usamos anclas para representar líneas de carril 3D. Como se muestra en la Figura 3, en el sistema de coordenadas de la carretera, las anclas se establecen a intervalos iguales a lo largo del eje x, y cada ancla se predice en coordenadas K fijadas en el eje y. -eje: el desplazamiento de la coordenada x y la altura z forman un conjunto de coordenadas tridimensionales que representan la línea del carril. Además, cada ancla también predice un nivel de confianza (que indica si hay un carril en el ancla), por lo que los datos predichos la dimensión es (2K+1). Para cada ancla, la red genera hasta tres tipos de descriptores de carril (confianza y geometría), los dos primeros (c1, c2) representan líneas centrales de carril y el tercer tipo (d) representa separadores de carril, que representan líneas de carril reales. La topología de los separadores de carril suele ser más compleja que la de las líneas centrales y nuestra representación no puede capturar todos los casos.

El tamaño de la cabeza de predicción final es: 3 · (2 ​​· K + 1) × 1 × N (N es el número de anclas, K es el número de puntos de predicción establecidos en el eje y). La predicción final realiza una supresión no máxima 1D común en la detección de objetos: solo se mantiene el carril con la confianza local más alta (en comparación con los anclajes vecinos izquierdo y derecho). Cada carril restante, representado por un pequeño número (K) de puntos 3D, se transforma en una curva suave mediante la interpolación spline.

P: ¿Por qué necesita dos líneas centrales c1 y c2?

Respuesta: La asignación de dos líneas centrales posibles a cada punto de anclaje puede proporcionar soporte de red para fusionar y dividir, lo que generalmente da como resultado que las líneas centrales de dos carriles coincidan en algún punto y se separen en diferentes ubicaciones de carreteras, como se muestra en la Figura 3 que se muestra en el ejemplo más a la derecha. (Personalmente, creo que un ancla predice la línea central de dos carriles generalmente requiere un valor de predicción de desplazamiento lateral mayor, lo que aumentará la dificultad de la predicción)

2.2.3 Formación

Durante el tiempo de entrenamiento y la evaluación, si todo el carril no cruza Y ref Y_{ref} dentro de los límites de una imagen de vista superior válidaYre f, luego ignore todo el carril (personalmente creo que no pasa por Y ref Y_{ref}Yre f(que se muestra en la Figura 3) no es bueno si se ignora); si el punto del carril está oculto por el terreno (es decir, más allá de la cima de la colina), el punto del carril se ignora. La función de pérdida general es la siguiente, la pérdida de entropía cruzada se usa para la confianza y la pérdida L1 se usa para otros

3 experimentos

3.1 Indicadores de evaluación

Se propone un método de evaluación para la detección de carriles 3D que separa la precisión de detección de la precisión de estimación geométrica. La precisión de detección se calcula a partir de la medida estándar de precisión promedio (AP) de la curva de recuperación de precisión. La distancia de la curva entre el GT y el carril detectado se calcula primero como una suma ponderada de las distancias punto a euclidianas. Las distancias se miden a lo largo de la curva con un conjunto predefinido de valores y, medidos cada 80 cm en el rango de 0 a 80 metros, con pesos que decaen con la distancia. Luego, se realiza la coincidencia uno a uno (curva) seleccionando pares de similitud decreciente. Una coincidencia se considera correcta si la distancia ponderada está por debajo de un umbral bastante permisivo (1,5 metros). Se genera una curva de recuperación de precisión mediante la iteración sobre los umbrales de confianza de carril.

Para los resultados de predicción de coincidencias, la precisión de la estimación geométrica se evaluó midiendo la distribución de errores (punto de distancia euclidiana) en los mismos puntos utilizados para medir la distancia de curva a curva. Debido a la diferencia en el tamaño del error, todo el conjunto de datos se divide en puntos de carril en el rango cercano (0-30 m) y el rango lejano (30-80 m). Luego, el error de 1σ para cada rango se calcula como el error del 68 % y el error de 2σ como el error del 95 %.

3.2 Detalles de implementación

Cómo la realidad del terreno coincide con el ancla durante el entrenamiento:

  1. Proyecte todas las líneas de carril y las líneas centrales de carril en la vista superior a través de IPM;
  2. Y ref Y_{ref}Yre fhacer coincidir posicionalmente cada línea con xxEl segmento de línea de anclaje más cercano en la dirección x ;
  3. Para las líneas coincidentes en cada punto de anclaje, asigne la línea del carril más a la izquierda y la línea central como d , c 1 d,c_1re ,C1, si hay otras líneas centrales, se asigna como c 2 c_2C2

5.3 Resultados de precisión

Conjunto de datos de simulación:
inserte la descripción de la imagen aquí

Conjunto de datos reales:
inserte la descripción de la imagen aquí

Resultados de visualización:
inserte la descripción de la imagen aquí

4 Análisis

Ventajas: trabajo innovador

defecto:

Los previos geométricos para 2D y 3D son demasiado simples y pueden introducir errores significativos.

El canal dual no es computación paralela, y la predicción del canal de la vista superior solo se puede realizar después de que sale el resultado final de la predicción de la vista de la imagen.

La línea de carril de Anchor no es perfecta, como por ejemplo:

La topología de los separadores de carril suele ser más compleja que la de las líneas centrales y nuestra representación no puede capturar todos los casos.

Personalmente, creo que un ancla predice la línea central de dos carriles generalmente requiere un valor de predicción de desplazamiento lateral grande, lo que aumentará la dificultad de la predicción.

Los carriles transversales perpendiculares a la dirección de la forma del vehículo no se pueden predecir.

Posibles mejoras:

Para obtener información sobre la representación y la eficiencia de los carriles en 3D, consulte los siguientes Gen-3DLaneNet\3DLaneNet+, etc.

referencias

Zhihu: Conducción autónoma – Detección de línea de carril – 3D-LaneNet: Detección de carril múltiple 3D de extremo a extremo

CSDN: 3D-LaneNet: Detección de múltiples carriles 3D de extremo a extremo

Arxiv: 3D-LaneNet: Detección de múltiples carriles 3D de extremo a extremo

interpolación spline

Supongo que te gusta

Origin blog.csdn.net/qq_37214693/article/details/130927403
Recomendado
Clasificación