GANet: una red de asociación global basada en puntos clave para la detección de carriles (CVPR 2022)

Descargo de responsabilidad: esta traducción es sólo un registro de estudio personal.

Información del artículo

Resumen

  La detección de carriles es una tarea desafiante que requiere predecir formas topológicas complejas de líneas de carril y distinguir diferentes tipos de carriles simultáneamente. Los primeros trabajos siguen una hoja de ruta de arriba hacia abajo para hacer retroceder los anclajes predefinidos en líneas de carriles de varias formas, que carecen de suficiente flexibilidad para adaptarse a carriles con formas complejas debido a la forma fija de los anclajes. Recientemente, algunos trabajos proponen formular la detección de carriles como un problema de estimación de puntos clave para describir de manera más flexible la forma de las líneas de carril y agrupar gradualmente puntos clave adyacentes que pertenecen a la misma línea de carril de manera puntual, lo que se puede obtener en el posprocesamiento. El proceso es ineficiente y requiere mucho tiempo. En este artículo, proponemos una Red de Asociación Global (GANet) para formular el problema de detección de carriles desde una nueva perspectiva, donde cada punto clave regresa directamente al punto inicial de la línea del carril en lugar de expandirse punto por punto. Específicamente, la asociación de puntos clave y sus líneas de carriles correspondientes se realiza prediciendo globalmente sus desplazamientos desde los orígenes correspondientes de los carriles sin interdependencia, lo que se puede hacer en paralelo para mejorar en gran medida la eficiencia. Además, también proponemos un agregador de características con reconocimiento de carril (LFA) que captura de forma adaptativa correlaciones locales entre puntos clave vecinos para complementar la información local con las asociaciones globales. Amplios experimentos en dos puntos de referencia populares de detección de carriles muestran que nuestro método supera a los métodos anteriores con puntuaciones F1 del 79,63 % en CULane y del 97,71 % en el conjunto de datos de Tusimle con FPS alto.

1. Introducción

  La conducción autónoma [10] ha atraído gran atención por parte de investigadores tanto del mundo académico como de la industria. Para garantizar la seguridad del automóvil durante la conducción, el sistema de conducción automática debe mantener el automóvil circulando a lo largo de la línea del carril en la carretera y debe percibir con precisión la línea del carril. Por tanto, la detección de carril juega un papel importante en los sistemas de conducción autónoma, especialmente en los sistemas avanzados de asistencia al conductor (ADAS).

inserte la descripción de la imagen aquí

Figura 1. (a) Un enfoque basado en anclajes que convierte anclajes predefinidos en formas de carriles. (b) Los métodos basados ​​en puntos clave predicen desplazamientos desde puntos clave hasta sus vecindarios para agruparlos uno por uno. (c) Ilustración de nuestra GANet, que hace una regresión de cada punto clave directamente a su carril prediciendo el desplazamiento entre cada punto clave y el origen de su línea de carril correspondiente. (d) Ilustración de nuestro módulo LFA, que asocia cada punto clave con sus vecinos para complementar la información local.

  Dada una imagen frontal tomada por una cámara montada en un vehículo, la detección de carril tiene como objetivo producir la forma precisa de cada línea de carril en la carretera. Debido a la forma delgada de las líneas de los carriles y a la necesidad de discriminación de clases, es crucial formular adecuadamente la tarea de detección de carriles. Inspirándose en los métodos de detección de objetos basados ​​en anclajes [22], algunos trabajos [10, 25] siguen el diseño de arriba hacia abajo, como se muestra en la Fig. 1a. De manera similar a la detección de objetos, un conjunto de líneas rectas con diferentes orientaciones se definen como anclas. Al predecir el desplazamiento entre el punto de anclaje y el punto del carril, el punto en el punto de anclaje regresa a la línea del carril. Luego, se aplica la supresión no máxima (NMS) para seleccionar la línea del carril con la mayor confianza. Aunque este enfoque es eficaz en el reconocimiento de carriles, es inflexible debido a las formas de anclaje predefinidas. Los antecedentes de formas fuertes limitan la capacidad de describir varias formas de carriles, lo que lleva a un rendimiento subóptimo de estos métodos.

  Para describir de manera flexible líneas de carril con formas complejas, Qu y otros [21] propusieron formular la detección de carriles como un problema de asociación y estimación de puntos clave, que adopta un diseño ascendente, como se muestra en la figura 1b. Específicamente, los carriles están representados por un conjunto ordenado de puntos clave que se muestrean uniformemente de manera dispersa. Cada punto clave se asocia con sus vecinos estimando el desplazamiento espacial entre ellos. De esta manera, los puntos clave que pertenecen al mismo carril se integran iterativamente en curvas continuas. Aunque los métodos basados ​​en puntos clave son flexibles en la forma de las líneas de carril, es ineficiente y requiere mucho tiempo asociar solo un punto clave con la línea de carril correspondiente en cada paso. Además, debido a la falta de una visión global, la expansión punto por punto de los puntos clave es propensa a la acumulación de errores. Una vez que un punto clave específico se asocia incorrectamente, la estimación del resto de la línea del carril fallará.

  Para superar las limitaciones anteriores, formulamos el problema de detección de carriles desde una nueva perspectiva basada en puntos clave, en la que cada punto clave regresa directamente al carril al que pertenece. Sobre esta base, proponemos una red de asociación global (GANet) de el nuevo oleoducto. Como se muestra en la Figura 1c, el punto inicial de cada línea de carril es único y fácil de determinar sin ambigüedad. Para asociar puntos clave correctamente, estimamos compensaciones desde los puntos clave hasta sus orígenes correspondientes. Los puntos clave cuyos orígenes aproximados estén en la misma vecindad se asignarán a la misma instancia de línea de carril, separando así los puntos clave en diferentes grupos. A diferencia de los métodos anteriores basados ​​en puntos clave [21], nuestra asignación de puntos clave a los carriles a los que pertenecen es independiente entre sí y permite la implementación paralela, lo que mejora en gran medida la eficiencia del posprocesamiento. Además, dado que cada punto clave posee una vista global, la asociación de puntos clave es más sólida ante los errores acumulados de un solo punto.

  Aunque los puntos clave que pertenecen a la misma línea de carril se integran durante el posprocesamiento, es importante garantizar la correlación entre puntos adyacentes para obtener una curva continua. Con este fin, desarrollamos un módulo de agregación de información local llamado Lane-Aware Feature Aggregator (LFA) para mejorar la correlación entre puntos clave adyacentes. Para adaptarse a la forma alargada del carril, modificamos la ubicación de muestreo de las convoluciones deformables 2D estándar [3] prediciendo desplazamientos a puntos vecinos, de modo que cada vez se muestree una región local en el carril. De esta manera, las características de cada punto clave se agregan con otros puntos vecinos para obtener características más representativas. Además, agregamos una pérdida auxiliar para facilitar la estimación del desplazamiento previsto en cada punto clave. Nuestro módulo LFA complementa el proceso de asociación global para permitir vistas locales y globales, que son cruciales para tareas de etiquetado denso, como la detección de carriles.

  Nuestras contribuciones se resumen a continuación:

  • Proponemos una novedosa Red de Asociación Global (GANet) para formular la detección de carriles desde una nueva perspectiva basada en puntos clave, que hace retroceder directamente cada punto clave a su carril de pertenencia. Hasta donde sabemos, somos los primeros en hacer una regresión de puntos clave de manera global, lo cual es más eficiente que la regresión local.

  • Desarrollamos un módulo de agregación de información local llamado Lane-Aware Feature Aggregator (LFA) para mejorar la correlación entre puntos clave adyacentes, complementando así la información local.

  • Nuestra GANet propuesta logra un rendimiento de última generación a una velocidad más rápida en dos puntos de referencia populares de detección de carriles, lo que demuestra la compensación superior entre rendimiento y eficiencia y el gran potencial de nuestra formulación de asociación global.

2. Trabajo relacionado

2.1 Método de detección de carril

  El propósito de la detección de carriles es obtener formas precisas de las líneas de los carriles y distinguirlas. Según la forma de modelar el carril, los métodos actuales basados ​​en el aprendizaje profundo se pueden dividir aproximadamente en varias categorías. Describimos estos métodos individualmente en esta sección.

  Enfoque basado en segmentación . Los métodos basados ​​en segmentación modelan la detección de líneas de carril como un problema de clasificación por píxel, donde cada píxel se clasifica como una región de carril o fondo [6, 8, 16, 18]. Para distinguir diferentes líneas de carril, SCNN [18] trata las diferentes líneas de carril como categorías diferentes, transformando así la detección de carriles en una tarea de segmentación de múltiples categorías. También se propone una estructura CNN segmento por segmento para permitir la entrega de mensajes entre filas y columnas. Para cumplir con los requisitos en tiempo real en la práctica, ENet-SAD [6] aplica un mecanismo de destilación de autoatención a la agregación de contexto para permitir el uso de una columna vertebral liviana. LaneNet [16] adopta una representación de carril diferente y formula la detección de carril como un problema de segmentación de instancias. Se incluyen una rama de segmentación binaria y una rama de incrustación para descomponer los resultados de la segmentación en instancias de carril. A diferencia de LaneNet, nuestro método utiliza compensaciones en lugar de incorporar funciones para agrupar cada línea de carril, lo cual es más eficiente y requiere menos tiempo.

  enfoque basado en la detección . Este enfoque suele adoptar un enfoque de arriba hacia abajo para predecir las líneas de los carriles. Entre ellos, los métodos basados ​​en anclajes [10, 25, 28] diseñan anclajes lineales y compensan la regresión entre puntos muestreados y puntos de anclaje predefinidos. Luego se aplica la supresión no máxima (NMS) para seleccionar la línea del carril con la mayor confianza. LineCNN [10] utiliza rayos rectos disparados desde los límites de la imagen con orientaciones específicas como un conjunto de anclajes. Curve NAS [28] define los anclajes como líneas verticales y además emplea la búsqueda de arquitectura neuronal (NAS) para buscar mejores redes troncales. LaneATT [25] propone un método de agrupación basado en anclas y un mecanismo de atención para agregar más información global. Otro enfoque [14, 20] formula la detección de carriles como un problema de clasificación por filas. Para cada fila, el modelo predice la ubicación de posibles marcas de carril.

  Enfoque basado en puntos clave . Inspirándose en la estimación de la pose humana, algunos trabajos consideran la detección de carriles como un problema de asociación y estimación de puntos clave. PINet [9] utiliza redes de reloj de arena apiladas [17] para predecir ubicaciones de puntos clave e incrustaciones de funciones. Agrupe diferentes instancias de carriles según la similitud entre las incorporaciones de características. FOOLLANE [21] genera un mapa de calor por píxeles con la misma resolución que la entrada para obtener puntos en el carril. También se desarrolla una construcción geométrica local para asociar puntos clave que pertenecen a la misma instancia de carril. Nuestra GANet emplea un enfoque de posprocesamiento más eficiente que no requiere incorporaciones de características ni asociaciones locales para agrupar o reconstruir carriles completos. Cada punto clave encuentra su carril correspondiente sumando sus coordenadas con un desplazamiento al inicio de la línea del carril de forma paralela.

2.2 Modelado deformable

  Las CNN tradicionales están inherentemente limitadas a modelar estructuras irregulares debido al rango de muestreo fijo en forma de cuadrícula de las operaciones de convolución. Para superar esta limitación, Dai y otros [3] propusieron convoluciones deformables para agregar información de forma adaptativa dentro de las regiones locales. En comparación con las convoluciones estándar, durante el muestreo, se agrega un desplazamiento 2D obtenido mediante una convolución adicional en cada ubicación espacial para permitir la libre deformación de la cuadrícula de muestreo. A través del desplazamiento aprendido, el campo receptivo y la posición de muestreo de la convolución se ajustan de forma adaptativa de acuerdo con la escala aleatoria y la forma del objeto. El espíritu del modelado deformable se ha aplicado a muchas tareas, como la detección de objetos [30, 34], el seguimiento de objetos [33] y la comprensión de videos [2, 29, 31]. RepPoints [30] modela un objeto como un conjunto de puntos y utiliza convoluciones deformables para predecir el desplazamiento de estos puntos hacia el centro del objeto. Esta representación de objetos deformables proporciona una localización geométrica precisa para la detección de objetos, así como la extracción de características semánticas adaptativas. [31] propusieron convoluciones 3D deformables para explorar información espacio-temporal y permitir la comprensión adaptativa del movimiento para la superresolución de video. A diferencia de estos métodos, nuestro módulo LFA se adapta a la estructura larga de las líneas de carriles y restringe el alcance de la agregación de características a puntos vecinos en cada carril mediante convoluciones deformables que reconocen los carriles.

3. Método

  La arquitectura general de nuestra Red de Asociación Global (GANet) propuesta se muestra en la Fig. 2. Dada una imagen de vista frontal como entrada, se emplea una columna vertebral de CNN y un cuello FPN [12] para extraer una representación visual de varios niveles de la imagen de entrada. Para un mejor aprendizaje de características, se inserta una capa de autoatención [27] entre la columna vertebral y el cuello para obtener información contextual rica. En el decodificador, se generan un mapa de confianza y un mapa de compensación utilizando el cabezal de llave y el cabezal de compensación, respectivamente. Ambas cabezas constan de capas totalmente convolucionales. Además, diseñamos un módulo agregador de características con reconocimiento de carril antes del encabezado del punto clave para mejorar la correlación local entre puntos clave adyacentes, ayudando así a generar líneas de carril continuas. Para cada instancia de carril, primero obtenemos su punto inicial como el centroide del grupo seleccionando un punto con un valor menor que 1 en el mapa de desplazamiento. Luego, utilizando una combinación de mapas de confianza y mapas de desplazamiento, los puntos clave que pertenecen al mismo carril se agrupan alrededor del punto de partida muestreado para construir una línea de carril completa.

inserte la descripción de la imagen aquí

Figura 2. La arquitectura general de GANet. Dada una imagen de vista frontal como entrada, se utiliza una columna vertebral de CNN seguida de una capa de autoatención (SA) y un cuello FPN para extraer características visuales de múltiples escalas. En el decodificador, el encabezado del punto clave y el encabezado de compensación se utilizan para generar un mapa de confianza y un mapa de compensación respectivamente, que luego se combinan para agrupar los puntos clave en grupos, indicando cada grupo una instancia de línea de carril. Nuestro módulo LFA se aplica antes de los puntos clave para capturar mejor el contexto local en las líneas de los carriles para la estimación de puntos clave.

3.1 Asociación global de puntos clave

3.1.1 Estimación de puntos clave

Dada una imagen de entrada I ∈ RH × W × 3 I∈\mathbb{R}^{H×W×3}IRH × W × 3 , el objetivo de nuestra GANet es predecir el conjunto de carrilesL = { l 1 , l 2 , … , l N } L=\{l_1,l_2,…,l_N\}l={ yo1,yo2,,yonorte} , dondeNNN es el número total de carriles y cada línea de carril usaKKLos K puntos clave muestreados se expresan como:

inserte la descripción de la imagen aquí

pij = ( xij , yij ) p^j_i = ( x ^j_i, y_i^j)pagij( xij,yij) significa eliiEl jjthen el carril iCoordenadas de j puntos clave. Para estimar todos los puntos clave, desarrollamos un punto clave para generar un mapa de confianzaY ^ ∈ RH r × W r \hat{Y}∈\mathbb{R}^{\frac{H}{r}×\frac {W} {r}}Y^Rrh×rW, donde rrr es la zancada de salida. El mapa de confianza representa la probabilidad de que cada ubicación sea un punto clave del carril. Como se muestra en la Figura 2(a), las ubicaciones más brillantes representan mayores probabilidades.

En la fase de entrenamiento, tenemos KK   en cada línea de carril.K puntos clave se muestrean como puntos clave de verdad fundamental y luego usan un núcleo gaussiano no normalizadoY yx = exp ( − ( x − x ~ ) 2 + ( y − y ~ ) 2 2 σ 2 ) Y_{yx} =exp(−\frac {(x−\tilde{x})^2+(y−\tilde{y})^2}{2σ^2})Yyx _=e x p ( 2p _2( x- _X~ )2 +(y-y~)2) descompóngalos todos en un mapa de confianzaY ∈ RH r × W r Y ∈ \mathbb{R}^{\frac{H}{r}×\frac{W}{r}}YRrh×rW, donde x ~ \tilde{x}X~y ~ \tilde{y}y~Indica las coordenadas de cada punto clave, la desviación estándar σ σσ depende del tamaño de la entrada. Si hay superposición entre dos mapas gaussianos, tomamos el máximo de elementos entre ellos.

  Empleamos una pérdida focal penalizada [13] para manejar el desequilibrio entre regiones de puntos clave y regiones sin puntos clave de la siguiente manera:

inserte la descripción de la imagen aquí

donde α αa yb bβ es el hiperparámetro de la pérdida focal,H ′ × W ′ H^′×W^′h×W.表示H r × W r \frac{H}{r}×\frac{W}{r}rh×rW. Subíndice yx yxy x significa obtener las coordenadas( x , y ) (x,y)( x ,y ) .

  Desde la salida zancada rrr , el punto de la imagen de entrada(xij, yij) (x^j_i,y_i^j)( xij,yij) se asigna a la posición( ⌊ xijr ⌋ , ⌊ yijr ⌋ ) (⌊\frac{x^j_i}{r}⌋,⌊\frac{y^j_i}{r}⌋)(⌊rXij,ryij⌋) , lo que puede provocar un rendimiento deficiente. Para tener en cuenta este error de cuantificación, también predecimos el mapa de compensaciónδ ^ yx \hat{δ}_{yx}d^yx _y aplique la pérdida L1 solo a ubicaciones de puntos clave:

inserte la descripción de la imagen aquí

其中δ yx = ( xijr − ⌊ xijr ⌋ , yijr − ⌊ yijr ⌋ ) δ_{yx}=(\frac{x^j_i}{r}-⌊\frac{x^j_i}{r}⌋,\frac{ y^j_i}{r}-⌊\frac{y^j_i}{r}⌋)dyx _=(rXijrXij,ryijryij⌋) representa el valor real del mapa de compensación cuantificado. Por simplicidad, esta parte no se muestra en la Figura 2.

3.1.2 Retorno al punto de partida

Para distinguir diferentes líneas de carril, proponemos utilizar un origen para representar de forma única cada instancia de carril debido a su estabilidad y margen máximo entre sí. No volvemos directamente a las coordenadas absolutas del punto de partida ( sxi , syi ) (sx_i,sy_i)( sx _yo,s yyo) , en su lugar, haga una regresión de cada punto clave a su desplazamiento, que se puede definir como:

inserte la descripción de la imagen aquí

  Por lo tanto, podemos generar una forma de H r × W r × C \frac{H}{r}×\frac{W}{r}×Crh×rW×Mapa de compensación de verdad de C O yx O_{yx}ohyx _. En particular, el subíndice yx indica la posición (xij, yij) (x^j_i,y_i^j)( xij,yij) , que es igual a( ∆ xij , ∆ yij ) (∆x^j_i,∆y_i^j)( xij,yij) , mientras que las demás posiciones tienen valores cero. C=2 contiene compensaciones en la dirección x y en la dirección y, respectivamente.

  Para estimar el mapa de compensación O ^ yx \hat{O}_{yx}oh^yx _, introducimos un encabezado desplazado, como se muestra en la Figura 2. De manera similar, la pérdida L1 se utiliza para restringir el mapa de compensación de la siguiente manera:

inserte la descripción de la imagen aquí

La supervisión solo se aplica a las ubicaciones de puntos clave y el resto se ignora.

inserte la descripción de la imagen aquí

Figura 3. Diagrama esquemático de construcción de carriles. (a) Seleccione puntos clave válidos del mapa de confianza. con ( x , y ) (x,y)( x ,y ) como ejemplo. (b) Primero para el punto de partida( sx , sy ) (sx,sy)( sx , _sy ) (puntos azules) para muestreo. Los puntos clave restantes apuntan a tener compensaciones predichas( δ x , δ y ) (δx,δy)( δ x ,δy ) , y estimar las coordenadas del punto de partida como( sx ′ , sy ′ ) = ( x , y ) + ( δ x , δ y ) (sx^′,sy^′)=(x,y)+( δx, δy)( sx _ ,s y )=( x ,y )+( δ x ,δy ) (puntos huecos). (c) Los puntos clave que apuntan cerca del punto de partida (sx, sy) se agrupan en carriles completos.

3.1.3 Construcción de carriles

El proceso de construcción de carriles se muestra en la Figura 3, el cual consiste en obtener las ubicaciones de todos los puntos de carriles posibles y luego agruparlos en diferentes instancias de carriles. Primero en el mapa de confianza del punto clave Y ^ \hat{Y}YSe aplica una capa de agrupación máxima de 1 × 3 en ^ para seleccionar el punto de respuesta máximo dentro de la región local horizontal como un punto clave efectivo, como se muestra en la Fig. 3 (a). Luego los agrupamos, describiendo cada carril como una lista ordenada de puntos clave, de la siguiente manera:

inserte la descripción de la imagen aquí

donde ( sx , sy ) (sx,sy)( sx , _sy ) indica el punto inicial del carril,( xj , yj ) (x^j,y^j)( xj ,yj )j ∈ [ 2 , K ] j∈[2,K]j[ 2 ,K ] es el siguiente punto clave.

  Para obtener el punto de partida de cada carril, seleccionamos puntos clave con valores inferiores a 1 en el mapa de desplazamiento como puntos de partida candidatos. Dado que pueden existir múltiples puntos clave que coincidan con los criterios anteriores dentro de la misma región local, se elige el punto central geométrico de la región para garantizar la unicidad. De este modo se predeterminan todos los casos de carril y sus puntos de partida.

  Luego asociamos los puntos clave restantes con sus carriles en función del desplazamiento estimado entre el punto clave y el origen correspondiente, como se muestra en la Figura 3 (b). Las coordenadas del punto inicial de la línea de carril estimada para cada punto clave son las siguientes:

inserte la descripción de la imagen aquí

en el que ( x , y ) (x,y)( x ,y ) son las coordenadas de los puntos clave observados,( δ x , δ y ) = O yx (δx,δy)=O_{yx}( δ x ,y )=ohyx _Indica la compensación correspondiente obtenida en el apartado 3.1.2. Sólo cuando ( sx ′ , sy ′ ) (sx^′,sy^′)( sx _ ,s y )( sx , sy ) (sx,sy)( sx , _sy ) es menor que el umbral predefinidoθ dis θ_{dis}id i sCuando, el punto clave (x, y) (x,y)( x ,y ) sólo con eliii carriles están asociados. Como se muestra en la Figura 3 (c), los puntos clave que apuntan cerca del mismo punto de partida se agrupan para generar el carril completo. El proceso anterior se realiza mediante operaciones matriciales para garantizar una asociación de puntos clave paralela.

3.2 Agregador de funciones de reconocimiento de carril

  Las convoluciones 2D tradicionales muestran características dentro de una región fija similar a una cuadrícula, que no es adecuada para manejar la forma alargada de las líneas de carril. Inspirándonos en Dai y otros [3], proponemos un módulo agregador de características con reconocimiento de carril (LFA) para recopilar de forma adaptativa información de puntos vecinos en el carril para mejorar la representación de características locales de cada punto clave. En la Figura 4 se muestra un diagrama de nuestro módulo LFA. Tomando un punto clave específico como ejemplo, primero usamos una capa convolucional para predecir el desplazamiento entre este y los M puntos clave rodeados en el mismo carril de la siguiente manera:

inserte la descripción de la imagen aquí

Entre ellos, pi p_ipagyoIndica el iiLas coordenadas de i puntos clave,F (pi) F(p_i)F ( pag.yo) significa eliiLa representación característica del punto clave del tiempo i,∆ P i = { ∆ pim ∣ m = 1 , … , M } ∈ R 2 M ∆P_i=\{∆p^m_i|m=1,…,M\} ∈\mathbb {R}^{2M}∆P _yo={ ∆p _immetro=1 ,,M }R2 M representa el desplazamiento de predicción. Luego, las características de los puntos vecinos se integran con convolución deformable para integrar eliiLa agregación contextual de i puntos clave es:

inserte la descripción de la imagen aquí

Entre ellos wm , m = 1 , . . . , M w_m,m=1,...,Mwm,metro=1 ,... ,M es el peso de la convolución,( ⋅ ) (·)( ) significa multiplicación.

inserte la descripción de la imagen aquí

Figura 4. Diagrama esquemático del módulo LFA. Los puntos rojos indican puntos clave observados. Primero predecimos el desplazamiento entre un punto rojo y sus puntos clave vecinos (azul) y luego recopilamos características de estos puntos clave para mejorar el contexto del punto rojo.

  Para mejorar la capacidad de LFA para aprender la forma local de las líneas de carril, introducimos además una pérdida auxiliar para supervisar el desplazamiento ∆ P i ∆P_i∆P _yo. nosotros lo haremosEl verdadero valor del desplazamiento entre i puntos clave y puntos clave en la línea del carril correspondiente se expresa como∆ G i = { ∆ gik ∣ k = 1 ,… , K } ∆G_i=\{∆g_i^k|k=1 ,… ,k\}∆G _yo={ gikk=1 ,,K } , esto se usa∆ gik = gik − pi ∆g_i^k=g_i^k−p_igramosik=gramoikpagyoCalculado, donde gik g_i^kgramoikes lo mismo que el iiEl i punto clave está en elkkésimoLas coordenadas reales de los k puntos clave.

  Como se muestra en la Figura 5, debe estar en ∆ pi ∆p_i∆pag _yoSuma ∆ gi ∆g_igramosyopartido entre. Buscamos la tarea σ con el menor costo de coincidencia σp :

inserte la descripción de la imagen aquí

式中,L partido = L 2 ( ∆ pim , ∆ gi σ ( m ) ) \mathcal{L}_{match}=L_2(∆p^m_i,∆g_i^{σ(m)})lmate t c h=l2( ∆p _im,gramosiσ ( metro )) . Según trabajos anteriores [1, 23], se adopta el algoritmo húngaro para calcular de manera eficiente la asignación óptima. Luego se aplica una pérdida SmoothL1 para supervisar la predicción de puntos clave vecinos:

inserte la descripción de la imagen aquí

donde K representa el número de puntos clave en cada línea de carril, N representa el número de líneas de carril y M representa el número de puntos clave adyacentes muestreados.

  La función de pérdida total es una combinación de diferentes pérdidas con los coeficientes correspondientes:

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

Figura 5. Ilustración de la coincidencia entre los puntos previstos y su verdad fundamental. Los puntos rojos son puntos clave observados. Los puntos azules son las posiciones previstas de los puntos clave vecinos. Los puntos verdes son las ubicaciones reales de los puntos clave adyacentes en la línea del carril.

4. Experimentar

  En esta sección, primero presentamos la configuración experimental de nuestro método. Los resultados de cada conjunto de datos se analizan en la siguiente subsección. Los experimentos de ablación para cada módulo se presentan en la última subsección.

4.1 Configuración experimental

4.1.1 Conjuntos de datos y métricas de evaluación

Realizamos experimentos en dos puntos de referencia de detección de carriles populares, incluidos CULane [18] y TuSimple [26].

  CULane : el conjunto de datos de CULane contiene 88880 imágenes de entrenamiento y 34680 imágenes de prueba, incluidas escenas urbanas y de carreteras. Las imágenes de prueba se dividen en 9 escenas diferentes. La métrica F1 es la única métrica de evaluación basada en IoU. Los carriles previstos con IoU superior a 0,5 se consideran verdaderos positivos (TP); de lo contrario, falsos positivos (FP) o falsos negativos (FN). La métrica F1 se define como la media armónica de precisión y recuperación.

  TuSimple : TuSimple es un conjunto de datos de carreteras reales que consta de 3626 imágenes para entrenamiento y 2782 imágenes para prueba. La principal métrica de evaluación del conjunto de datos de TuSimple es la precisión y su fórmula es la siguiente:

inserte la descripción de la imagen aquí

donde C clip C_ {clip}Cc l i pes el número de puntos predichos correctamente por el modelo, S clip S_{clip}Sc l i pes el número total de puntos en el clip (o imagen). Un punto predicho sólo se considera correcto si se encuentra dentro de los 20 píxeles del punto de verdad del terreno. Los carriles previstos con una precisión superior al 85 % se consideraron verdaderos positivos. También informamos las puntuaciones de F1 en los siguientes experimentos.

inserte la descripción de la imagen aquí

Tabla 1. Detalles de diferentes versiones de GANet.

4.1.2 Detalles de implementación

Elegimos ResNet-18, ResNet-34 y ResNet-101 [5] como columnas vertebrales para formar tres versiones diferentes de GANet, llamadas GANet-S, GANet-M y GANet-L, respectivamente. Los detalles de cada versión se muestran en la Tabla 1. Durante las etapas de entrenamiento y prueba, primero cambiamos el tamaño de la imagen de entrada a 800 × 320. El número de puntos de muestreo en el LFA se establece en M=9. La pérdida de peso se establece en λ punto = 1,0 λ_{punto}=1,0yop o en t=1,0λ cuanto = 1,0 λ_{cuanto}=1,0yoq u t _=1,0λ desplazamiento = 0,5 λ_{desplazamiento}=0,5yoapagado _ _ _=0,5λ aux = 1,0 λ_{aux}=1,0yoa _=1.0 . Los hiperparámetros α y β en la Ecuación 2 se establecen en 2 y 4, respectivamente. Para la optimización, utilizamos el optimizador Adam y la disminución de la tasa de aprendizaje poli con una tasa de aprendizaje inicial de 0,001. Entrenamos para Tusimple y CULane durante 300 y 40 épocas, respectivamente, con un tamaño de lote de 32 por GPU. El aumento de datos se aplica en la fase de entrenamiento, incluido el escalado aleatorio, el recorte, el giro horizontal, la rotación aleatoria y la fluctuación de color. En la fase de prueba, establecemos el umbral de los puntos clave en 0,4 yel θ dis asociado con los puntos clave θ_ {dis}id i sEstablecer en 4. Tanto el entrenamiento como las pruebas se realizan en la GPU Tesla-V100.

4.2 Resultados cuantitativos

4.2.1 Resultados de CULane

Los resultados del equipo de prueba CULane se muestran en la Tabla 2. Nuestro GANet-L logra resultados de última generación en el conjunto de datos CULane con una puntuación F1 del 79,63% y una velocidad de fotogramas de 63 FPS, que supera a modelos de escala similar como LaneATT-ResNet122 por un amplio margen en términos de rendimiento y velocidad Las ventajas. En comparación con otro método basado en puntos clave, FOLLane ERF [21], nuestro GANet-S logra un rendimiento comparable de 78,79 % de puntuación F1, pero se ejecuta 3,8 veces más rápido, lo que indica un equilibrio superior entre rendimiento y eficiencia, y demuestra la ventaja de velocidad de nuestra formulación de asociación global. Además, nuestro método logra las puntuaciones F1 más altas en seis escenarios, especialmente en escenarios curvos. En este caso, nuestro GANet-L alcanza el 77,37% y supera al método de última generación ERF-E2E [32] en más del 5%, lo que demuestra la superioridad de nuestro método para describir alineaciones de carriles complejas.

4.2.2 Resultados de TuSimple

Los resultados de la comparación en el conjunto de pruebas TuSimple se muestran en la Tabla 4. Nuestro GANet-S supera a todos los demás métodos y logra la puntuación F1 más alta del 97,71 % a FPS altos. En particular, GANet-S supera a UFast-ResNet34 y LaneATT-ResNet34 con una velocidad similar y un alto margen, lo que muestra el gran potencial de nuestra formulación de asociación global. Al igual que en LaneATT [25], ampliar la capacidad del modelo no necesariamente conduce a una mejora del rendimiento. Esto puede deberse a la pequeña cantidad de conjuntos de datos de Tusimple y una sola escena. Los resultados están saturados y los modelos más grandes pueden causar problemas de sobreajuste.

inserte la descripción de la imagen aquí

Tabla 2. Comparación con métodos de última generación en el conjunto de pruebas CULane. La métrica de evaluación es la puntuación F1 con un umbral de IoU de 0,5. Para escenarios cruzados, solo se muestra FP.

inserte la descripción de la imagen aquí

Figura 6. Resultados de visualización de GANet sin LFA. La primera columna es la imagen de entrada. La segunda y tercera columnas son los mapas de confianza de puntos pronosticados y las líneas de carril sin LFA. Las columnas cuarta y quinta son los mapas de confianza de puntos previstos y las líneas de carril con LFA. La última columna es la línea del carril de verdad del terreno.

inserte la descripción de la imagen aquí

Tabla 3. Estudios de ablación del módulo LFA

4.2.3 Estudios de ablación

Para explorar las propiedades de nuestro módulo LFA propuesto, realizamos un estudio de ablación en el conjunto de datos CULane. Todos los experimentos siguientes se basan en versiones pequeñas de GANet. Los resultados se muestran en la Tabla 3. La primera fila muestra el método de referencia sin el módulo LFA. En la segunda fila, el módulo LFA está integrado en GANet sin pérdida auxiliar. La última fila muestra los resultados de toda nuestra GANet.

  En las dos primeras filas podemos observar que el módulo LFA sin pérdida auxiliar es efectivo para la detección de líneas de carril debido a la integración flexible del contexto. Al comparar las dos últimas filas, también podemos encontrar que la pérdida auxiliar es crucial para el módulo LFA, que puede guiar a LFA para que se concentre en la información clave en la línea del carril. Consulte la Sección 4.3 para un análisis visual.

4.3 Resultados cualitativos

  Visualizamos los resultados cualitativos sin LFA en la Fig. 6. Las columnas 2 y 4 son visualizaciones de los mapas de confianza sin y con LFA, respectivamente. Como se muestra en los resultados de la primera fila, el módulo LFA realiza predicciones correctas incluso cuando los vehículos están atascados, porque los puntos de carril previstos se refuerzan entre sí. A partir de los resultados de la segunda y tercera fila, también se puede concluir que el módulo LFA es capaz de suprimir el ruido de fondo que puede introducir la atención global.

  Para estudiar intuitivamente las propiedades de los módulos LFA, visualizamos los puntos de agregación de características predichos en la Fig. 7. La primera fila muestra la situación común del carril recto. Al agregar una pérdida auxiliar, el módulo LFA puede predecir puntos de agregación alrededor de las líneas de los carriles. Mientras tanto, los puntos de agregación previstos son irregulares sin pérdida auxiliar. Las dos últimas filas muestran los puntos de agregación para el caso de carriles curvos. Los resultados muestran que el módulo LFA es sólido en la comprensión de la estructura local de las líneas de carriles. Esta función ayuda a mejorar las características de las líneas de carril y suprimir el ruido de fondo.

inserte la descripción de la imagen aquí

Tabla 4. Comparación con métodos de última generación en el conjunto de pruebas de TuSimple.

inserte la descripción de la imagen aquí

Figura 7. Resultados de visualización de LFA sin pérdida auxiliar. Los puntos rojos son puntos de observación. Los puntos verdes son puntos de agregación previstos. Los puntos de color azul claro son puntos de verdad sobre el terreno en la línea del carril.

5. Conclusión y discusión

  En este artículo, proponemos una Red de Asociación Global (GANet) para formular el problema de detección de carriles desde una nueva perspectiva, donde cada punto clave regresa directamente al punto inicial de la línea del carril en lugar de expandirse punto por punto. La asociación de puntos clave con las líneas de carril a las que pertenecen se realiza prediciendo globalmente sus desplazamientos desde los puntos de inicio correspondientes del carril, lo que mejora enormemente la efectividad. Además, proponemos un agregador de características con reconocimiento de carril (LFA) para capturar de forma adaptativa correlaciones locales entre puntos clave adyacentes para complementar la información local. Los resultados experimentales muestran que nuestro GANet supera a los métodos anteriores a mayor velocidad.

  límite . Una limitación de nuestro método es que cuando la zancada de salida se establece en 1, el desplazamiento hasta el punto inicial puede resultar difícil de retroceder debido al gran valor absoluto del desplazamiento. En el futuro, esperamos resolver este problema haciendo una regresión en múltiples niveles de compensaciones para facilitar la regresión.

6. Agradecimientos

  Esta investigación fue apoyada parcialmente por la Fundación Nacional de Ciencias Naturales de China (6202207862121002), el Programa de Investigación de Ciencias Básicas de la Defensa Nacional (JCKY2020903B002) y SenseTime Group Co., Ltd.

Referencias

[1] Nicolás Carión, Francisco Massa, Gabriel Synnaeve, Nicolás Usunier, Alexander Kirillov y Sergey Zagoruyko. Detección de objetos de extremo a extremo con transformadores. En ECCV, 2020. 5
[2] Jingwen Chen, Yingwei Pan, Yehao Li, Ting Yao, Hongyang Chao y Tao Mei. Redes codificadores-decodificadores convolucionales deformables temporales para subtítulos de vídeo. En AAAI, 2019. 3
[3] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu y Yichen Wei. Redes convolucionales deformables. En ICCV, 2017. 2, 3, 5
[4] Mohsen Ghafoorian, Cedric Nugteren, N´ora Baka, Olaf Booij y Michael Hofmann. El-gan: Incorporación de redes generativas adversas impulsadas por pérdidas para la detección de carriles. En actas de los talleres de la Conferencia europea sobre visión por computadora (ECCV), 2018. 8
[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. En CVPR, 2016. 6
[6] Yuenan Hou, Zheng Ma, Chunxiao Liu y Chen Change Loy. Aprendizaje de CNNS de detección de carriles ligeros mediante destilación de atención propia. ICCV, 2019. 2
[7] Yuenan Hou, Zheng Ma, Chunxiao Liu y Chen Change Loy. Aprender cnns de detección de carriles ligeros mediante destilación de atención propia. En ICCV, 2019. 7, 8
[8] Seokwoo Jung, Sungha Choi, Mohammad Azam Khan y Jaegul Choo. Hacia una detección de carriles ligera optimizando la incrustación espacial. CEVWW, 2020. 2
[9] Yeongmin Ko, Younkwan Lee, Shoaib Azam, Farzeen Munir, Moongu Jeon y Witold Pedrycz. Enfoque de estimación de puntos clave y segmentación de instancias de puntos para la detección de carriles. Transacciones IEEE sobre sistemas de transporte inteligentes, 2021. 3
[10] Xiang Li, Jun Li, Xiaolin Hu y Jian Yang. Line-cnn: Detección de líneas de tráfico de un extremo a otro con unidad de propuesta de línea. Transacciones IEEE sobre sistemas de transporte inteligentes, 2019. 1, 3
[11] Xiang Li, Jun Li, Xiaolin Hu y Jian Yang. Line-cnn: Detección de líneas de tráfico de un extremo a otro con unidad de propuesta de línea. Transacciones IEEE sobre sistemas de transporte inteligentes, 2019. 8
[12] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan y Serge Belongie. Presenta redes piramidales para la detección de objetos. En CVPR, 2017.3
[13] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He y Piotr Doll´ar. Pérdida focal para la detección de objetos densos. En ICCV, 2017. 4
[14] Lizhe Liu, Xiaohao Chen, Siyu Zhu y Ping Tan. Cond-lanenet: un marco de detección de carriles de arriba a abajo basado en convolución condicional. En ICCV, 2021. 3
[15] Ruijin Liu, Zejian Yuan, Tie Liu y Zhiliang Xiong. Predicción de la forma del carril de un extremo a otro con transformadores. En WACV, 2021. 8
[16] Davy Neven, Bert De Brabandere, Stamatios Georgoulis, Marc Proesmans y Luc Van Gool. Hacia la detección de carriles de un extremo a otro: un enfoque de segmentación de instancias. Simposio de vehículos inteligentes del IEEE, Actas, 2018. 2
[17] Alejandro Newell, Kaiyu Yang y Jia Deng. Redes de relojes de arena apiladas para la estimación de la pose humana. En ECCV, 2016. 3
[18] Xingang Pan, Jianping Shi, Ping Luo, Xiaogang Wang y Xiaoou Tang. Espacial como profundo: CNN espacial para comprender la escena del tráfico. En AAAI, 2018. 2, 6, 7, 8
[19] Jonah Philion. Fastdraw: abordar la larga cola de detección de carriles adaptando una red de predicción secuencial. En CVPR, 2019. 7, 8
[20] Zequn Qin, Huanyu Wang y Xi Li. Detección ultrarrápida de carriles profundos con reconocimiento de estructuras. En ECCV, 2020. 3, 7, 8
[21] Zhan Qu, Huan Jin, Yang Zhou, Zhen Yang y Wei Zhang. Centrarse en lo local: detectar el marcador de carril de abajo hacia arriba a través del punto clave. En CVPR, 2021. 2, 3, 6, 7, 8
[22] Shaoqing Ren, Kaiming He, Ross Girshick y Jian Sun. R-cnn más rápido: hacia la detección de objetos en tiempo real con redes de propuesta de región. Avances en sistemas de procesamiento de información neuronal, 2015. 1
[23] Russell Stewart, Mykhaylo Andriluka y Andrew Y Ng. Detección de personas de extremo a extremo en escenas concurridas. En CVPR, 2016. 5
[24] Lucas Tabelini, Rodrigo Berriel, Thiago M Paixao, Claudine Badue, Alberto F De Souza y Thiago Oliveira-Santos. Polylanenet: estimación de carriles mediante regresión polinómica profunda. En ICPR, 2020. 8
[25] Lucas Tabelini, Rodrigo Berriel, Thiago M. Paixao, Claudine Badue, Alberto F. De Souza y Thiago Oliveira-Santos. Mantenga la vista en el carril: detección de carril guiada por atención en tiempo real. En CVPR, 2021. 1, 3, 7, 8
[26] TuSimple. Punto de referencia de detección de carriles de Tusimple, 2017. https://github. com / TuSimple / tusimple -benchmark, 2017. 6
[27] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. Atención es todo lo que necesitas. En Avances en sistemas de procesamiento de información neuronal, 2017. 3
[28] Hang Xu, Shaoju Wang, Xinyue Cai, Wei Zhang, Xiaodan Liang y Zhenguo Li. Curvelane-nas: unificación de la búsqueda de arquitectura sensible al carril y combinación de puntos adaptativos. En ECCV, 2020. 3, 7
[29] Xiangyu Xu, Muchen Li y Wenxiu Sun. Aprendizaje de núcleos deformables para eliminar ruido de imágenes y videos. Preimpresión de arXiv arXiv:1904.06903, 2019. 3
[30] Ze Yang, Shaohui Liu, Han Hu, Liwei Wang y Stephen Lin. Reppoints: Representación de conjunto de puntos para la detección de objetos. En ICCV, 2019. 3
[31] Xinyi Ying, Longguang Wang, Yingqian Wang, Weidong Sheng, Wei An y Yulan Guo. Convolución 3D deformable para superresolución de vídeo. Cartas de procesamiento de señales del IEEE, 2020. 3
[32] Seungwoo Yoo, Hee Seok Lee, Heesoo Myeong, Sungrack Yun, Hyoungwoo Park, Janghoon Cho y Duck Hoon Kim. Detección de marcadores de carril de un extremo a otro mediante clasificación por filas. En Actas de la Conferencia IEEE sobre talleres de visión por computadora y reconocimiento de patrones, 2020. 6, 7, 8
[33] Yuechen Yu, Yilei Xiong, Weilin Huang y Matthew R Scott. Redes de atención siamesas deformables para el seguimiento visual de objetos. En CVPR, 2020. 3
[34] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang y Jifeng Dai. Deformable detr: Transformadores deformables para la detección de objetos de extremo a extremo. En ICLR, 2020.3

Supongo que te gusta

Origin blog.csdn.net/i6101206007/article/details/132133155
Recomendado
Clasificación