Redes profundas de doble resolución para una segmentación semántica precisa y en tiempo real de escenas de carreteras

Red profunda de doble resolución para una segmentación semántica precisa y en tiempo real de escenas de carreteras

https://arxiv.org/pdf/2101.06085.pdf
https://github.com/ydhongHIT/DDRNet
Yuanduo Hong, Huihui Pan, Weichao Sun, miembro senior, IEEE, Yisong Jia
2021

Resumen

La segmentación semántica es una tecnología clave para que los vehículos autónomos comprendan la escena circundante. El atractivo rendimiento de los modelos contemporáneos a menudo tiene el costo de una gran cantidad de cálculos y largos tiempos de inferencia, lo cual es intolerable para la conducción autónoma. Utilizando arquitecturas livianas (codificador-decodificador o doble paso) o infiriendo imágenes de baja resolución, los métodos recientes logran un análisis de escenas muy rápido, incluso ejecutando más de 100 FPS en una sola GPU 1080Ti. Sin embargo, la brecha de rendimiento entre estos métodos en tiempo real y los modelos basados en backbone dilatados sigue siendo grande. Para abordar este problema, proponemos una serie de backbones eficientes diseñados para la segmentación semántica en tiempo real. La red profunda de resolución dual (DDRNet) propuesta consta de dos ramas profundas en las que se realizan múltiples fusiones bilaterales. Además, diseñamos unNuevo extractor de información contextual llamado Deep Aggregation Pyramid Pooling Module (DAPPM), para expandir el campo receptivo efectivo y fusionar un contexto de múltiples escalas basado en mapas de características de baja resolución. Nuestro método logra nuevas compensaciones de última generación entre precisión y velocidad en los conjuntos de datos Cityscapes y CamVid. En particular, en una sola GPU 2080Ti, DDRNet-23-slim alcanza 77,4% mIoU a 102 FPS en el equipo de prueba Cityscapes y 74,7% mIoU a 230 FPS en el equipo de prueba CamVid. En los aumentos de prueba ampliamente utilizados, nuestro método supera a la mayoría de los modelos más modernos y requiere menos cálculo. El código y el modelo entrenado están disponibles en línea.

Palabras clave : segmentación semántica, tiempo real, red neuronal convolucional profunda, conducción autónoma

1 resumen

Figura 1: Comparación de velocidad y precisión en el conjunto de pruebas de Paisajes urbanos. Los triángulos rojos representan nuestro método, los triángulos azules representan otros métodos y los círculos verdes representan métodos de búsqueda de arquitectura.

La segmentación semántica es una tarea fundamental cuyo objetivo es asignar cada píxel de una imagen de entrada a una etiqueta correspondiente [1]–[3]. Desempeña un papel importante en muchas aplicaciones prácticas, como la segmentación de imágenes médicas, la navegación en conducción autónoma y la robótica [4], [5]. Con el auge de la tecnología de aprendizaje profundo, las redes neuronales convolucionales se han aplicado a la segmentación de imágenes y han logrado ventajas significativas sobre los métodos tradicionales basados en funciones manuales. Desde que se propusieron redes totalmente convolucionales (FCN) [6] para manejar problemas de segmentación semántica, se han propuesto una serie de redes nuevas. DeepLab [7] elimina algunas operaciones de reducción de resolución en ResNet para mantener una alta resolución y utiliza operaciones de convolución [8] con grandes tasas de dilatación para ampliar el campo receptivo. Desde entonces, la atroz red troncal basada en convolución y el módulo de extracción de contexto se han convertido en estructuras estándar ampliamente utilizadas, incluidas DeepLabV2 [9], DeepLabV3 [10], PSPNet [11] y DenseASPP [12].

Dado que la segmentación semántica es una tarea de predicción densa, las redes neuronales necesitan generar mapas de características de alta resolución con grandes campos receptivos para producir resultados satisfactorios, lo cual es computacionalmente costoso. Este problema es particularmente crítico para el análisis de escenas en la conducción autónoma, ya que requiere operar con imágenes muy grandes para cubrir un amplio campo de visión. Por lo tanto, el método anterior requiere mucho tiempo en la fase de inferencia y no se puede implementar directamente en vehículos autónomos reales. Ni siquiera pueden procesar una imagen en un segundo porque se utilizan pruebas a múltiples escalas para mejorar la precisión.

Con la creciente demanda de implementación de dispositivos móviles, los algoritmos de segmentación en tiempo real [13]–[17] han recibido cada vez más atención.DFANet [18] adopta agregación profunda de características de múltiples escalas y convoluciones livianas separables en profundidad, logrando una prueba mIoU del 71,3 % a 100 fotogramas por segundo. A diferencia del paradigma codificador-decodificador, los autores en [19] propusieron unUna nueva red bilateral compuesta por caminos espaciales y caminos contextuales. En particular, la ruta espacial utiliza tres capas convolucionales de 3 × 3 relativamente anchas para capturar detalles espaciales, mientras que la ruta contextual es una red troncal compacta previamente entrenada para extraer información contextual. Estos métodos bilaterales, incluido [20], en ese momento lograron velocidades de inferencia más altas que las arquitecturas de codificador-decodificador.

Recientemente, se han propuesto algunos métodos competitivos en tiempo real para la segmentación semántica de escenas de carreteras. Estos métodos se pueden dividir en dos categorías.Un tipo de red troncal eficiente en GPU, especialmente ResNet-18 [21-23]. Se ha desarrollado otro tipoCodificador ligero y complejo entrenado desde cero, entre los cuales BiSeNetV2 [24] alcanzó un nuevo pico en rendimiento en tiempo real, logrando un 72,6 % de mIoU de prueba a 156 cuadros por segundo en el conjunto de datos de Cityscapes. Sin embargo, estos trabajos recientes no han demostrado el potencial para obtener resultados de mayor calidad, excepto [23] que utilizó datos de entrenamiento adicionales. Algunos de ellos carecen de escalabilidad debido a arquitecturas cuidadosamente diseñadas e hiperparámetros ajustados. Además, ResNet-18 tiene pocas ventajas dado el desarrollo de redes troncales más potentes.

Este artículo propone una red de doble resolución para la segmentación semántica en tiempo real de imágenes de alta resolución, específicamente para imágenes de conducción en carretera. Nuestras DDRNets comienzan desde una red troncal y luego se dividen en dos ramas profundas paralelas con diferentes resoluciones. Una rama profunda genera mapas de características de resolución relativamente alta y la otra extrae información semántica rica a través de múltiples operaciones de muestreo descendente. La fusión de información eficiente se realiza entre las dos ramas a través de múltiples conexiones bilaterales. Además, proponemos un módulo novedoso llamado DAPPM, que ingresa mapas de características de baja resolución, extrae información contextual de múltiples escalas y los fusiona en forma de cascada. Antes de entrenar en el conjunto de datos de segmentación semántica, la red de resolución dual se entrena en ImageNet siguiendo un paradigma común.

Basado en extensos resultados experimentales en tres puntos de referencia populares, a saber, Cityscapes, CamVid y COCOStuff, DDRNets logra un excelente equilibrio entre precisión de segmentación y velocidad de inferencia. En comparación con otros algoritmos en tiempo real, nuestro método logra una precisión de vanguardia en los conjuntos de datos de paisajes urbanos y CamVid sin utilizar mecanismos de atención ni modificaciones adicionales. En condiciones estándar mejoradas por pruebas, DDRNet es comparable a los modelos más modernos y requiere menos recursos computacionales. También informamos un rendimiento estadísticamente significativo y realizamos experimentos de ablación para analizar el impacto de las mejoras arquitectónicas y las técnicas de capacitación estándar.

Las principales contribuciones se resumen a continuación:

Se propone una serie de redes bilaterales novedosas con ramas profundas de resolución dual y múltiples fusiones bilaterales como redes troncales de segmentación semántica en tiempo real eficientes.
Se ha diseñado un módulo novedoso para recopilar información contextual rica combinando la agregación de funciones con la agrupación piramidal. Agrega poco al tiempo de inferencia cuando se realiza en mapas de características de baja resolución.。
Nuestro método logra un nuevo equilibrio de última generación entre precisión y velocidad en 2080Ti, logrando 77,4 % mIoU a 102 fotogramas por segundo en el equipo de prueba Cityscapes y 74,7 % mIoU a 230 fotogramas por segundo en el equipo de prueba CamVid. . Hasta donde sabemos, somos el primer método en alcanzar el 80,4 % de mIoU en paisajes urbanos casi en tiempo real (22 FPS) utilizando solo anotaciones finas.

2. Trabajo relacionado

En los últimos años, los métodos basados en convolución dilatada han mejorado el rendimiento de la segmentación semántica en muchos escenarios desafiantes. El trabajo pionero explora nuevas posibilidades con arquitecturas ligeras como codificador-decodificador y de dos rutas. Además, en la tarea de análisis de escena,Información contextualresultó ser muy importante. En esta sección, clasificamos el trabajo relacionado en tres categorías, a saberMódulos de segmentación semántica de alto rendimiento, segmentación semántica en tiempo real y extracción de contexto。

A. Segmentación semántica de alto rendimiento

Figura 2. Comparación del método de dilatación, el método codificador-decodificador, el método de doble canal y nuestra red profunda de doble resolución.

Debido a la falta de detalles espaciales, la salida de la última capa de un codificador común no se puede utilizar directamente para predecir máscaras de segmentación. Si solo se elimina la reducción de resolución de la columna vertebral de clasificación, el campo receptivo efectivo será demasiado pequeño para aprender información semántica de alto nivel. Una estrategia aceptable es utilizar una convolución atroz para establecer conexiones largas entre píxeles y al mismo tiempo eliminar las dos últimas capas de reducción de resolución, p.Imagen 2aComo se muestra [10], [11]. Sin embargo, esto también trae nuevos desafíos a la inferencia en tiempo real debido al crecimiento exponencial de las dimensiones de los mapas de características de alta resolución y la optimización insuficiente de las atroces implementaciones de convolución. De hecho, la mayoría de los modelos de última generación se construyen sobre la base de la columna vertebral ampliada y, por lo tanto, no son adecuados para el análisis de escenarios de conducción autónoma.

Varios trabajos han intentado explorar alternativas a la columna vertebral de expansión estándar. Los autores de DeepLabv3plus [25] propusieron un decodificador simple que fusiona mapas de características muestreados con mapas de características de bajo nivel. Alivia la necesidad de generar mapas de características de alta resolución directamente a partir de atroces convoluciones. Aunque el ritmo de salida del codificador está establecido en 16, DeepLabv3plus aún puede lograr resultados competitivos. HRNet [26] enfatiza la representación profunda de alta resolución y refleja una mayor eficiencia que las columnas vertebrales dilatadas. Descubrimos que HRNet es más eficiente computacionalmente y realiza inferencias más rápidamente, y muchos de sus flujos de resolución fina son de tamaño mucho más pequeño. Tomando HRNetV2-W48 como ejemplo, las dimensiones de las características de resolución de 1/4 y 1/8 de resolución son 48 y 96 respectivamente, que son mucho más pequeñas que las ResNets previamente entrenadas con convoluciones atroces [27]. Aunque las ramas de alta resolución de HRNet son mucho más pequeñas, pueden mejorarse enormemente mediante ramas paralelas de baja resolución y fusiones repetidas a múltiples escalas.

Nuestro trabajo comienza con representaciones profundas, detalladas y de alta resolución y propone una arquitectura más compacta. Mantienen simultáneamente una representación de alta resolución y extraen información contextual de alto nivel a través de dos pilares concisos.

B. Segmentación semántica en tiempo real

Casi todos los modelos de segmentación semántica en tiempo real adoptan dos métodos básicos: el método codificador-decodificador y el método de doble canal. Ambos enfoques discuten la importancia de los codificadores livianos.

1) Arquitectura codificador-decodificador : en comparación con los modelos basados en convolución dilatada, la arquitectura codificador-decodificador consume intuitivamente menos tiempo computacional y de inferencia. El codificador suele ser una red profunda con muestreo espacial repetido para extraer información contextual, mientras que el decodificador restaura la resolución mediante interpolación o convolución transpuesta [28] para completar una predicción densa, comoFigura 2bmostrado. En particular, el codificador puede ser una red troncal liviana previamente entrenada en ImageNet, o una variante eficiente entrenada desde cero como ERFNet [5] y ESPNet [16]. SwiftNet [21] aprovecha al máximo los codificadores previamente entrenados en ImageNet y utiliza conexiones laterales livianas para ayudar al muestreo superior. Los autores en [29] propusieron una estrategia de fusión espacial múltiple y supervisión de límites de categorías. FANet [22] logra un buen equilibrio entre velocidad y precisión a través de módulos de atención rápida y una reducción de resolución adicional de toda la red. SFNet [23] presenta el Módulo de alineación de flujo (FAM) para alinear mapas de características de niveles adyacentes para una mejor fusión.

2) Arquitectura de doble canal : la arquitectura codificador-decodificador reduce la carga de trabajo computacional, pero debido a que parte de la información se pierde durante el muestreo repetido, no se puede recuperar completamente mediante el muestreo ascendente, lo que afecta la precisión de la segmentación semántica. Para paliar este problema, se propone una arquitectura de doble canal [19], comoFigura 2cmostrado. Además de un canal para extraer información semántica, otro canal poco profundo con mayor resolución proporciona ricos detalles espaciales como complemento. Para mejorar aún más la precisión, BiSeNetV2 [24] utiliza una agrupación promedio global para la incrustación de contexto y propone un método de fusión de características basado en la atención. Los dos canales en BiSeNetV1 y V2 son inicialmente independientes, mientras que las dos ramas en Fast-SCNN [20] comparten el módulo de reducción de resolución de aprendizaje. CABiNet [30] adopta la arquitectura general de Fast-SCNN pero utiliza MobileNetV3 [31] como rama contextual.

Además de los métodos de doble canal existentes, las ramas de resolución profunda y fina de DDRNet pueden lograr una fusión de múltiples características y un preentrenamiento suficiente de ImageNet al tiempo que garantizan la eficiencia de la inferencia. Nuestro método se puede escalar fácilmente para lograr una mayor precisión (más del 80 % de mIoU en el conjunto de datos de paisajes urbanos).

3) Codificadores livianos : existen muchas redes troncales computacionalmente eficientes que se pueden usar como codificadores, como MobileNet [32], ShuffleNet [33] y versiones pequeñas de Xception [34]. red móvilUtilice convoluciones separables en profundidad en lugar de convoluciones estándar, para reducir los parámetros y la cantidad de cálculo. El bloque residual inverso en MobileNetV2 [35] mitiga el fuerte efecto de regularización de las convoluciones separables en profundidad. ShuffleNet explota la compacidad de las convoluciones agrupadas y proponeOperaciones de barajado de canales para facilitar la fusión de información entre diferentes grupos.. Sin embargo, estas redes contienen una gran cantidad de convoluciones separables en profundidad y no se pueden implementar de manera eficiente en arquitecturas de GPU existentes. Por lo tanto, aunque ResNet-18 [27] tiene aproximadamente seis veces los FLOP de MobileNetV2 1.0×, el primero tiene una velocidad de inferencia más alta que el segundo [21] en una sola GPU 1080Ti. Sin embargo, las redes troncales livianas existentes pueden no ser óptimas para la segmentación semántica, ya que a menudo están demasiado ajustadas para la clasificación de imágenes.

C. Módulo de extracción de contexto

En la segmentación semántica, otra clave es cómo capturar información contextual más rica. Atrous Spatial Pyramid Pooling (ASPP) [9] consta de capas convolucionales atroces paralelas con diferentes velocidades de muestreo, que pueden centrarse en información contextual de múltiples escalas. El Pyramid Pooling Module (PPM) [11] implementa el pooling piramidal antes de la capa convolucional y es más eficiente computacionalmente que ASPP. A diferencia de las características locales de los núcleos de convolución, el mecanismo de autoatención es bueno para capturar dependencias globales. Por lo tanto, Dual Attention Network (DANet) [36] explota las ventajas de la atención de posición y la atención de canal para mejorar aún más la representación de características. Object Context Network (OCNet) [37] utiliza un mecanismo de autoatención para explorar el contexto del objeto, es decir, un conjunto de píxeles que pertenecen a la misma categoría de objeto. Los autores de CCNet [38] propusieron un mecanismo de atención cruzada para mejorar el uso de la memoria y la eficiencia computacional. Sin embargo, estos módulos de extracción de contexto están diseñados e implementados para mapas de características de alta resolución, lo que requiere demasiado tiempo para modelos livianos. Tomamos mapas de características de baja resolución como entrada y mejoramos el módulo PPM agregando más escalas y agregación profunda de características. Cuando se agrega al final de la rama de baja resolución, nuestro módulo propuesto muestra un mejor rendimiento sobre los módulos PPM y Base-OC de OCNet.

3. Método

Esta sección describe todo el proceso, que consta de dos componentes principales: una red profunda de doble resolución y un módulo de agrupación piramidal de agregación profunda.

A. Red profunda de doble resolución

Para mayor comodidad, podemos agregar una rama adicional de alta resolución en una red troncal de clasificación ampliamente utilizada, como ResNet. Para lograr un equilibrio entre resolución y velocidad de inferencia, dejamos que la rama de alta resolución cree mapas de características con una resolución de 1/8 de la resolución de la imagen de entrada. Por lo tanto, la rama de alta resolución se agrega al final de la etapa conv3. Cabe señalar que la rama de alta resolución no contiene ninguna operación de reducción de resolución y se corresponde uno a uno con la rama de baja resolución para formar una representación profunda de alta resolución. Luego, se pueden realizar múltiples fusiones de características bilaterales en diferentes etapas para integrar completamente la información espacial y la información semántica.

Tabla I Arquitectura de DDRNet-23-SLIM y DDRNet-39 en Imagenet. 'CONV4×r' significa que CONV4 se repite r veces. Para DDRNet-23-SLIM, r = 1; para DDRNet-39, r = 2.

La arquitectura detallada de DDRNets-23-slim y DDRNets-39 es la siguienteTabla Imostrado. Modificamos el módulo de entrada del ResNet original reemplazando una capa convolucional de 7 × 7 con dos capas convolucionales consecutivas de 3 × 3. Utilice bloques básicos residuales para construir la columna vertebral y las dos ramas posteriores. Para expandir la dimensión de salida, se agrega un bloque de cuello de botella al final de cada rama.

Figura 3. Detalles de la fusión bilateral en DDRNet. Implemente la suma puntual antes de ReLU.

La fusión bilateral incluye la fusión de ramas de alta resolución con ramas de baja resolución (fusión de alta a baja) y la fusión de ramas de baja resolución con ramas de alta resolución (fusión de baja a alta). Para la fusión de alto a bajo, los mapas de características de alta resolución se reducen a través de una serie de convoluciones de 3 × 3 (con paso 2), seguido de una suma puntual. Para la fusión de baja a alta, los mapas de características de baja resolución primero se comprimen mediante convolución 1 × 1 y luego se muestrean mediante interpolación bilineal.imagen 3Demuestra cómo se puede lograr la integración bilateral. El i-ésimo mapa de características de alta resolución $X_{Hi}$ y mapa de características de baja resolución $X_{yo}$ Se puede expresar como:

Entre ellos, FH y FL corresponden a secuencias de bloques básicos residuales con alta y baja resolución respectivamente, $T_{LH}$ y $T_{HL}$ Se refiere a los convertidores de bajo a alto y de alto a bajo, y R representa la función ReLU.
En total, construimos cuatro redes de doble resolución con diferentes profundidades y anchos. DDRNet-23 es dos veces más ancho que DDRNet-23-slim y DDRNet-39 1.5× es una versión más amplia de DDRNet-39.

B. Módulo de agrupación piramidal de agregación profunda DAPPM

Figura 5. Arquitectura detallada del módulo de agrupación piramidal de agregación profunda. El número de ramas de múltiples escalas se puede ajustar según la resolución de entrada.

Aquí, proponemos un nuevo módulo para extraer aún más información contextual de mapas de características de baja resolución. La Figura 5 muestra la estructura interna de DAPPM. Tomando como entrada el mapa de características con una resolución de imagen de 1/64, se utiliza un núcleo de agrupación grande con paso exponencial para generar mapas de características con una resolución de imagen de 1/128, 1/256 y 1/512. También se utilizan mapas de características de entrada e información a nivel de imagen generada por la agrupación promedio global. Creemos que fusionar toda la información contextual de múltiples escalas a través de una única convolución de 3×3 o 1×1 es insuficiente. Inspirándonos en Res2Net, primero tomamos muestras del mapa de características y luego usamos más convoluciones de 3 × 3 para fusionar información contextual de diferentes escalas de una manera residual jerárquica. Para entrada $x$ , cada escala $y_i$ Se puede expresar como:

Entre ellos, $C_{1×1}$ Representa convolución 1 × 1, $C_ {3 × 3}$ Representa convolución 3 × 3, U representa operación de muestreo ascendente, $P_ {j, k}$ Indica que el tamaño del kernel es $j$ , la zancada es $k$ capa de agrupación, Pglobal representa la agrupación promedio global. Finalmente, todos los mapas de características se concatenan y comprimen mediante convolución 1 × 1. Además, se ha agregado un acceso directo de proyección 1×1 para facilitar la optimización. Similar a SPP en SwiftNet, DAPPM utiliza una implementación de secuencia de BN-ReLU-Conv.

Tabla II Considerando una imagen con un tamaño de entrada de 1024×1024, las dimensiones de contexto generadas por PPM y DAPPM son las siguientes:

Dentro de DAPPM, el contexto extraído por núcleos de agrupación más grandes se integra con flujos de información más profundos, y las características de múltiples escalas se forman integrando núcleos de agrupación de diferentes profundidades y tamaños.Cuadro IIMuestra que DAPPM puede proporcionar información contextual más rica que PPM. Aunque DAPPM contiene más capas convolucionales y estrategias de fusión más complejas, apenas afecta la velocidad de inferencia ya que la resolución de entrada es solo 1/64 de la resolución de la imagen. Por ejemplo, para una imagen de 1024 × 1024, la resolución máxima del mapa de características es 16 × 16.

C. Arquitectura general de la segmentación semántica

Figura 4. Descripción general de DDRNet en segmentación semántica. "RB" significa bloque básico residual secuencial. "RBB" representa un único bloque de cuello de botella residual. "DAPPM" significa Módulo de agrupación de pirámides de agregación profunda. "Seg. Head" significa dividir la cabeza. La línea negra sólida representa la ruta de la información que incluye el procesamiento de datos (incluido el muestreo ascendente y descendente), y la línea discontinua negra representa la ruta de la información sin procesamiento de datos. "suma" significa sumar punto por punto. Los cuadros discontinuos representan componentes que se descartan durante la fase de inferencia.

Nuestro enfoque se resume enFigura 4mostrado. Se realizan algunas mejoras en la red de resolución dual para tareas de segmentación semántica. Primero, el paso de convolución 3 × 3 de RBB en la rama de baja resolución se establece en 2 para una mayor reducción de resolución. Luego, se agrega DAPPM en la salida de la rama de baja resolución para extraer información contextual rica del mapa de características de alto nivel con una resolución de imagen de 1/64. Además, la fusión final de alto a bajo se reemplaza por una fusión de bajo a alto lograda mediante interpolación bilineal y fusión de suma. Finalmente, diseñamos un cabezal de segmentación simple, que incluye una capa convolucional de 3 × 3 y una capa convolucional de 1 × 1. La carga computacional del cabezal de segmentación se puede ajustar cambiando la dimensión de salida de la capa convolucional de 3 × 3. Para DDRNet-23-slim lo configuramos en 64, para DDRNet-23 lo configuramos en 128 y para DDRNet39 lo configuramos en 256. Tenga en cuenta que todos los módulos, excepto el cabezal de segmentación y el módulo DAPPM, están previamente entrenados en ImageNet.

D. Supervisión en profundidad

Agregar supervisión adicional durante la fase de entrenamiento puede aliviar los problemas de optimización de las redes neuronales convolucionales profundas (DCNN). En PSPNet, la salida del bloque res4 22 de ResNet-101 se supervisa agregando una función de pérdida auxiliar y el peso correspondiente se establece en 0,4 de acuerdo con los resultados experimentales [11]. BiSeNetV2 propone una estrategia de entrenamiento de aumento que agrega cabezas de segmentación adicionales al final de cada etapa de la rama semántica. Sin embargo, se requiere una amplia experimentación para encontrar los pesos óptimos que equilibren cada pérdida y resulten en un aumento significativo de la memoria de entrenamiento. Para obtener mejores resultados, SFNet utiliza una estrategia similar llamada aprendizaje supervisado profundo en cascada [23]. En este artículo, solo empleamos una supervisión adicional simple para una comparación justa con la mayoría de los métodos. comoFigura 4Como se muestra, agregamos una pérdida auxiliar y establecemos el peso en 0,4, igual que PSPNet. Durante la fase de prueba, se descarta el encabezado de segmentación auxiliar. La función de pérdida final es la suma ponderada de la pérdida de entropía cruzada, que se puede expresar como:
$L_f=L_n+αLa\tag{3}$
Aquí, $L_f$ 、 $L_n$ Japonesa $L_a$ representan la pérdida final, la pérdida ordinaria y la pérdida auxiliar respectivamente, mientras que $α$ representa el peso de la pérdida auxiliar, que en este artículo es 0,4.

4. Experimentar

A. Conjunto de datos

Cityscapes [40] es uno de los conjuntos de datos más conocidos que se centra en el análisis de escenas de calles urbanas. Contiene 2975 imágenes de entrenamiento finamente anotadas, 500 imágenes de validación y 1525 imágenes de prueba. No utilizamos las 20.000 imágenes adicionales con anotaciones aproximadas durante el entrenamiento. Este conjunto de datos tiene un total de 19 categorías que se pueden utilizar para tareas de segmentación semántica. La resolución de la imagen es 2048 × 1024, lo que supone un desafío para la segmentación semántica en tiempo real.

CamVid [41] contiene 701 fotogramas densamente anotados, cada uno con una resolución de 960×720. Incluye 367 imágenes de entrenamiento, 101 imágenes de validación y 233 imágenes de prueba. Combinamos los conjuntos de entrenamiento y validación para el entrenamiento y evaluamos nuestro modelo en el conjunto de prueba utilizando 11 categorías siguiendo estudios previos [18], [19], [21].

COCOStuff [42] proporciona imágenes complejas de 10K densamente anotadas con 182 categorías, incluidas 91 categorías de objetos y 91 categorías de escenas. Cabe señalar que 11 categorías de objetos no tienen anotaciones de segmentación. Seguimos la división en [42] (9K para entrenamiento, 1K para pruebas) para una comparación justa.

B. Entornos de formación

Tabla III Tasa de error principal, tamaño de parámetro y GFLOPS de cuatro DDRNets escaladas:

Antes de realizar el ajuste fino para la tarea de segmentación semántica, la red de resolución dual se entrenó en el conjunto de datos ImageNet, siguiendo la misma estrategia de aumento de datos que en trabajos anteriores [27], [44]. Todos los modelos se entrenaron en cuatro GPU 2080Ti durante 100 épocas utilizando una resolución de entrada de 224×224 y un tamaño de lote de 256. La tasa de aprendizaje inicial se establece en 0,1 y se reduce en un factor de 10 en las épocas 30, 60 y 90. Entrenamos todas las redes utilizando SGD con una caída de peso de 0,0001 y un impulso de Nesterov de 0,9.Cuadro IIIMuestra la tasa de error principal en el conjunto de validación de ImageNet. Aunque DDRNet no es tan eficiente como muchas redes troncales livianas y bien diseñadas en ImageNet, aún logra buenos resultados en los puntos de referencia de segmentación semántica dada la compensación de velocidad. Las configuraciones de entrenamiento de Cityscapes, CamVid y COCOStuff son las siguientes:
1) Cityscapes : utilizamos el optimizador SGD con una tasa de aprendizaje inicial de 0,01, un impulso de 0,9, una caída de peso de 0,0005, siguiendo la estrategia de aprendizaje de la trama y un parámetro exponencial de 0.9 para eliminar la tasa de aprendizaje e implementar métodos de mejora de datos que incluyen recorte aleatorio de imágenes, escalado aleatorio en el rango de 0.5 a 2.0 y volteo horizontal aleatorio. Siguiendo [18], [29], [23], las imágenes se recortan aleatoriamente en 1024 × 1024 para entrenamiento. Todos los modelos utilizan un tamaño de lote de 12 para 484 épocas (~120 000 iteraciones) en cuatro GPU 2080Ti, con BN simultánea. Para los modelos evaluados en el servidor de prueba, las imágenes se ingresan desde los conjuntos train y val durante el entrenamiento. Para una comparación justa con [24] y [23], también utilizamos Online Hard Example Mining (OHEM) [50].
2) CamVid : establecemos la tasa de aprendizaje inicial en 0,001 y entrenamos todos los modelos durante 968 épocas. Siguiendo [18], las imágenes se recortan aleatoriamente a 960 × 720 para entrenamiento. Todos los modelos se entrenan en una sola GPU y otros detalles del entrenamiento son los mismos que en Cityscapes. Al realizar un entrenamiento previo con Cityscapes, ajustamos el modelo para 200 épocas.
3) COCOStuff : La tasa de aprendizaje inicial es 0,001 y el número total de épocas de entrenamiento es 110. Cambiamos el tamaño del lado corto de la imagen a 640 antes del aumento de datos. Igual que BiSeNetV2 [24], el tamaño del recorte es 640×640. Otros detalles de entrenamiento son los mismos que los de Paisajes urbanos, pero con una caída de peso de 0,0001. Durante la fase de inferencia, fijamos la resolución de la imagen en 640 × 640.

C. Medidas de velocidad y precisión del razonamiento

La velocidad de inferencia se midió utilizando una única GPU GTX 2080Ti con un tamaño de lote establecido en 1, utilizando CUDA 10.0, CUDNN 7.6 y PyTorch 1.3. Al igual que MSFNet y SwiftNet, excluimos la capa de normalización por lotes después de la capa convolucional porque puede integrarse en la convolución durante la inferencia. Utilizamos el protocolo establecido por [51] para una comparación justa (tamaños de imagen: 2048×1024 para Cityscapes, 960×720 para CamVid, 640×640 para COCOStuff).

De manera similar a ResNet [27], informamos los mejores resultados, resultados promedio y desviación estándar de cuatro experimentos, excepto que la precisión en el conjunto de pruebas de paisajes urbanos la proporciona el servidor oficial.

D. Comparación de velocidad y precisión

Tabla IV Comparación de precisión y velocidad en el conjunto de datos de paisajes urbanos. Informamos los resultados tanto del conjunto de validación como del de prueba. Dado que la velocidad de inferencia de diferentes modelos se mide en diferentes condiciones, se informan los modelos de GPU y las resoluciones de entrada correspondientes. Nuestro cálculo de GFLOPS toma como entrada una imagen de 2048 × 1024 píxeles. Si está marcado con †, la velocidad correspondiente se midió utilizando la aceleración TensorRT.

Paisajes urbanos : desdeCuadro IVyFigura 1Se puede ver que nuestro método logra un nuevo equilibrio óptimo entre rendimiento en tiempo real y alta precisión. En particular, DDRNet-23-slim (nuestro modelo más pequeño) alcanza un 77,4 % de mIoU a 102 FPS en el equipo de prueba. Alcanza un mIoU un 6,1 % mayor que DFANet A y MSFNet* a velocidades de inferencia similares, y es aproximadamente 2,5 veces más rápido que MSFNet. Además, es un 40 % más rápido que el SFNet más pequeño, logrando una mejora de mIoU del 2,9 % en el conjunto de prueba. En particular, nuestro método también supera a los métodos de segmentación semántica en tiempo real basados en búsquedas de arquitectura, como CAS y GAS, que tienen velocidades de inferencia similares. Para modelos más anchos, DDRNet-23Cuadro IVObtuvo la mejor precisión general entre los métodos en tiempo real, logrando un 79,4 % de mIoU a 37 FPS. DDRNet-23 mejora el rendimiento en un 0,5% en comparación con SFNet (ResNet-18) y se ejecuta dos veces más rápido.

Continuamos nuestra inmersión profunda en DDRNet y logramos un 80,4 % de mIoU a 22 FPS en el servidor de prueba de Cityscapes, utilizando solo datos finamente anotados. Si se beneficia del conjunto de datos Mapillary [52] y una aceleración de TensorRT similar a [23], nuestro método puede establecer un punto de referencia enorme para la segmentación semántica en tiempo real de escenas de carreteras. En el conjunto de validación de paisajes urbanos, DDRNet-23-slim supera todos los resultados publicados en la Tabla IV, con 36,3 GFLOP y 5,7 millones de parámetros. Y DDRNet-23 logró un nuevo mejor resultado general con un 79,5 % de mIoU.Figura 6Se muestran los resultados de visualización de DDRNet-23-slim y DDRNet-23 en diferentes escenarios.

Figura 6. Resultados de la segmentación visual en el conjunto de validación de paisajes urbanos. Las cuatro columnas de izquierda a derecha representan la imagen de entrada, la anotación de verdad fundamental, la salida de DDRNet-23-slim y la salida de DDRNet-23 respectivamente. Las primeras cuatro filas muestran el rendimiento de los dos modelos, mientras que las dos últimas filas representan algunos casos de falla de segmentación. Tabla V Comparación de precisión y velocidad en el conjunto de datos CAMVID. MSFNet se ejecuta a 1024×768, MSFNet* se ejecuta a 768×512, mientras que otros métodos se ejecutan a 960×720. Si está marcado †, las mediciones se realizaron utilizando la aceleración TensorRT.

2) CamVid : como se muestra en la Tabla V, DDRNet-23-slim logra 74,7% mIoU a 230 FPS en el conjunto de prueba CamVid sin entrenamiento previo en paisajes urbanos. Logró la segunda mayor precisión y funcionó más rápido que todos los demás métodos. En particular, DDRNet-23 supera al anterior método de última generación MSFNet. DDRNet-23 también tiene una mejora de rendimiento mayor que BiSeNetV2-L y SFNet (ResNet-18) y se ejecuta aproximadamente el doble de rápido que ellos. Dado que CamVid tiene muchos menos píxeles de entrenamiento que Cityscapes, creemos que el rendimiento superior de DDRNet se debe en parte a un entrenamiento previo suficiente de ImageNet. Además, nuestros modelos previamente entrenados en paisajes urbanos logran una precisión de última generación a velocidades en tiempo real. En particular, DDRNet-23 previamente entrenado en Cityscapes alcanza un 80,6 % de mIoU a 94 FPS, que es más potente y rápido que BiSeNetV2-L. Los resultados de visualización correspondientes son los siguientes:Figura 7mostrado.

Figura 7. Resultados de la segmentación visual en el equipo de prueba CamVid. Las etiquetas que se ignoran durante la prueba tienen el color negro. Las tres columnas de izquierda a derecha representan la imagen de entrada, las anotaciones de verdad del terreno y la salida de DDRNet-23, respectivamente. Las primeras cuatro filas muestran muestras exitosas, mientras que las dos últimas filas representan algunos casos en los que la segmentación falló. Tabla VI Comparación de precisión y velocidad en el conjunto de datos COCO-Stuff. La resolución de entrada es 640 × 640 y los resultados de PSPNet50 son de [24]. Si está marcado †, las mediciones se realizaron utilizando la aceleración TensorRT.

3) COCOStuff : también validamos nuestro método en COCOStuff, un conjunto de datos de segmentación semántica en tiempo real más desafiante con categorías ricas. Dado que la resolución de la imagen es menor que la de los otros dos conjuntos de datos, el paso de RBB se establece en 1 en la rama de baja resolución. El tiempo para remodelar la imagen y predecir la máscara no está incluido en las estadísticas.Cuadro VISe demuestra que nuestro método muestra mayores ventajas que BiSeNetV2 en escenarios muy desafiantes. Nuestro DDRNet-23 se ejecuta 20 veces más rápido con una precisión similar a la de PSPNet50.

E. Comparación con los últimos resultados existentes

Cuadro VII Modelos de última generación en el conjunto de pruebas de Paisajes Urbanos. OS representa el paso de salida final. Todos los métodos entrenan modelos tanto en conjuntos de entrenamiento como de validación, excepto PSPNet marcado con † que solo usa el conjunto de entrenamiento. El cálculo de GFLOPS toma una imagen de 1024 × 1024 píxeles como entrada, y la mayoría de los resultados sobre GFLOPS y parámetros se pueden encontrar en [23].

En esta sección, demostramos aún más las capacidades de DDRNet en segmentación semántica y las comparamos con modelos de última generación en el conjunto de pruebas de Cityscapes. Estos métodos a menudo emplean métodos de inferencia de inversión horizontal y de múltiples escalas para lograr mejores resultados independientemente del costo de tiempo. Para hacer una comparación justa con ellos, también adoptamos múltiples escalas que incluyen 0,50×, 0,75×, 1×, 1,25×, 1,5×, 1,75×, 2× y aumento de datos que incluye volteo hacia la izquierda y hacia la derecha. =La Tabla VII== muestra que la mejora de la prueba estándar mejora la precisión de DDRNet-39 del 80,4 % al 81,9 %. Nuestro DDRNet-39 supera a muchos modelos potentes que integran módulos de autoatención como CCNet, DANet y OCNet. En particular, nuestro método requiere solo el 11% del cálculo de DANet. DDRNet-39 también lidera el método SFNet de última generación para la segmentación semántica en tiempo real basado en la columna vertebral ResNet-101, que requiere solo el 34% del cálculo. DDRNet-39 1,5×, que tiene un tamaño similar al de otros modelos de la Tabla VII, logra un rendimiento muy competitivo (82,4% mIoU).

F. Comparación con HRNet

Tabla VIII Experimentos comparativos entre DDRNet y HRNet, utilizando MIOU, FPS y memoria de entrenamiento como indicadores:

La principal diferencia entre DDRNet y HRNet es la cantidad de sucursales. Además, agregamos un módulo de extracción de contexto de múltiples escalas al final de la rama de baja resolución.Cuadro VIIILos resultados experimentales demuestran que DDRNet supera a HRNet en términos de tiempo de inferencia y uso de memoria de entrenamiento. Obtenemos resultados de validación para dos HRNets más pequeñas a partir de la implementación oficial. La memoria de entrenamiento se mide en una única 2080Ti con un tamaño de lote de 2 y un tamaño de cultivo de 1024×512, excluyendo los cabezales de segmentación auxiliares.

G. Experimentos de ablación en paisajes urbanos

Tabla IX El impacto del diseño elegante adicional estándar en los resultados experimentales, incluida la supervisión profunda (DS), OHEM y entrenamiento de cultivos en 1024 × 1024 (el valor predeterminado es 1024 × 512):

1 Técnicas estándar: analizamos el impacto de algunas técnicas de entrenamiento básicas en el rendimiento, que también son adoptadas por el último método avanzado SFNet [23]. comoCuadro IXComo se muestra, al entrenar con supervisión profunda, OHEM y cultivos de mayor tamaño, la precisión mejora de 76,1 a 77,8.

Tabla X: Comparación de DAPPM y otros módulos de extracción de contexto. RES2 significa módulo RES2NET y BASE-OC es el módulo de contexto de objeto propuesto en [37]:

2 DAPPM: Comparamos DAPPM con Pyramid Pooling (PPM), el módulo de autoatención (Base-OC) y el módulo Res2Net.TablaXLos resultados muestran que el módulo propuesto mejora el rendimiento del análisis de escenas del 74,1% mIoU al 77,8% mIoU, mientras que la velocidad de inferencia casi no se ve afectada. DAPPM también logra una ganancia de mIoU del 1% en comparación con PPM y RES2, mientras que otro método reciente, Base-OC, tiene un rendimiento relativamente pobre al utilizar mapas de características de baja resolución.

Tabla XI: Estudio de ablación de redes de doble resolución. La línea de base está adaptada de BiseNetV2 reemplazando ramas semánticas complejas con ramas de baja resolución. '+RAMA DE DETALLE MÁS DELGADA' significa reducir a la mitad la dimensión de la rama de detalle. '+CONV3' significa agregar la rama de detalles al final de la etapa CONV3. '+RESIDUAL' significa reemplazar la convolución 3 × 3 con un bloque básico residual. '+BOTTLENECK' significa agregar un bloque de cuello de botella al final de cada rama. '+FUSIÓN DE BAJA A ALTA' o '+FUSIÓN BILATERAL' significa realizar múltiples fusiones de baja a alta o fusiones bilaterales:

Red de doble resolución: para acelerar el experimento, entrenamos todas las redes bilaterales desde cero utilizando una tasa de aprendizaje inicial de 0,05, un tamaño de recorte de 1024 × 512, un total de 600 épocas y sin utilizar OHEM. comoCuadro XIComo se muestra, el uso de ramas con detalles más finos da como resultado una caída de precisión del 1,3% y se ejecuta mucho más rápido que la línea de base. Adjuntar ramas detalladas a capas intermedias de la red ayuda a generar representaciones profundas de alta resolución y mejora la velocidad de inferencia porque evita el cálculo a resoluciones más altas. El cuello de botella expande la dimensión de la característica, produciendo características más ricas para DAPPM y el cabezal de segmentación final. La fusión bilateral mejora aún más la precisión de la segmentación con un coste de tiempo reducido. Finalmente, nuestra red de doble resolución logra un mejor rendimiento y requiere menos recursos y tiempo que la línea base.

Conclusión V:

Este artículo se centra en la segmentación semántica precisa y en tiempo real de escenas de carreteras y propone una solución simple sin utilizar diseños sofisticados adicionales. En particular, se propone una novedosa red profunda de doble resolución como estructura troncal eficiente para la segmentación semántica en tiempo real. También se ha diseñado un nuevo módulo para extraer información contextual de múltiples escalas de mapas de características de baja resolución. Hasta donde sabemos, somos los primeros en introducir representaciones profundas de alta resolución en la segmentación semántica en tiempo real, y nuestra estrategia simple supera a los modelos en tiempo real anteriores en tres puntos de referencia populares. DDRNet se compone principalmente de bloques básicos residuales y bloques de cuello de botella, que proporcionan una amplia gama de compensaciones de velocidad y precisión ajustando el ancho y la profundidad del modelo. Debido a la simplicidad y eficiencia de nuestro método, puede considerarse como una base poderosa para lograr una segmentación semántica de alta precisión y en tiempo real. La investigación adicional se centrará en mejorar la línea de base y transferir la red troncal a otras tareas posteriores.

REFERENCIAS

[1] Z. Liu, X. Li, P. Luo, CC Loy y X. Tang, “Aprendizaje profundo de
campo aleatorio de Markov para segmentación semántica”, IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 40, núm. 8, págs. 1814–1828, 2018.
[2] L. Jing, Y. Chen e Y. Tian, “Segmentación semántica de gruesa a fina
a partir de etiquetas a nivel de imagen”, IEEE Transactions on Image Processing,
vol. 29, págs. 225–236, 2020.
[3] X. Ren, S. Ahmad, L. Zhang, L. Xiang, D. Nie, F. Yang, Q. Wang y
D. Shen, “Descomposición de tareas y sincronización para
la segmentación semántica de imágenes biomédicas”, IEEE Transactions on Image Processing, vol. 29, págs. 7497–7510, 2020.
[4] M. Saha y C. Chakraborty, “Her2net: Un marco profundo para la semántica
segmentación y clasificación de membranas y núcleos celulares en
la evaluación del cáncer de mama”, IEEE Transactions on Image Processing, vol. 27,
núm. 5, págs. 2189–2200, 2018
[5] E. Romera, JM Alvarez, LM Bergasa y R. Arroyo, “Erfnet: Efficient residual factorized convnet for real-time semantic segmentation”, IEEE Transactions on
Intelligent Transportation Systems, vol. . 19, núm. 1,
págs. 263–272, 2017.
[6] J. Long, E. Shelhamer y T. Darrell, “Redes totalmente convolucionales
para la segmentación semántica”, en Actas de la Conferencia IEEE sobre
visión por computadora y reconocimiento de patrones, págs. 3431–3440, 2015.
[7] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy y AL Yuille,
“Segmentación de imágenes semánticas con redes convolucionales profundas y
crfs completamente conectados”, preimpresión de arXiv arXiv:1412.7062, 2014.
[8] S. Mallat, Un recorrido por el procesamiento de señales con ondas. Elsevier, 1999.
[9] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy y AL Yuille,
“Deeplab: segmentación de imágenes semánticas con redes convolucionales profundas,
convolución atroz y crfs completamente conectados”, IEEE Transactions on
Pattern Analysis and Machine Intelligence, vol. 40, núm. 4, págs. 834–848,
2017.
[10] L.-C. Chen, G. Papandreou, F. Schroff y H. Adam, “Repensar
la convolución atroz para la segmentación de imágenes semánticas”, preimpresión de arXiv arXiv
:1706.05587, 2017.
[11] H. Zhao, J. Shi, X. Qi, X. Wang y J. Jia, “Pyramid scene parsing
network”, en Actas de la Conferencia IEEE sobre visión por computadora
y reconocimiento de patrones, págs. 2017.
[12] M. Yang, K. Yu, C. Zhang, Z. Li y K. Yang, “Denseaspp for semantic
segmentation in street scene”, en Actas de la Conferencia IEEE
sobre visión por computadora y reconocimiento de patrones, págs. 3684–3692, 2018.
[13] A. Paszke, A. Chaurasia, S. Kim y E. Culurciello, “Enet: Una arquitectura de red neuronal profunda
para la segmentación semántica en tiempo real”,
preimpresión de arXiv arXiv:1606.02147, 2016
[14] Z. Yang, H. Yu, M. Feng, W. Sun, X. Lin, M. Sun, ZH Mao ,
y A. Mian, “Aumento de objetos pequeños de escenas urbanas para segmentación semántica en tiempo real”, IEEE Transactions on Image Processing,
vol. 29, págs. 5175–5190, 2020.
[15] H. Zhao, X. Qi, X. Shen, J. Shi y J. Jia, “Icnet para la segmentación semántica en tiempo real
en imágenes de alta resolución”, en Actas de
la Conferencia europea sobre visión por computadora, págs. 405–420, 2018.
[16] S. Mehta, M. Rastegari, A. Caspi, L. Shapiro y H. Hajishirzi,
“Espnet: Efficient espacial Pyramid of dilatated convolutions for semantic
segmentation”, en Actas de la Conferencia europea sobre
visión por computadora, págs. 552–568, 2018.
[17] B. Jiang, W. Tu, C. Yang y J. Yuan, “Red integrada en el contexto y con características refinadas para el análisis de objetos livianos”, IEEE Transactions on Image Processing, vol
. 29, págs. 5079–5093, 2020.
[18] H. Li, P. Xiong, H. Fan y J. Sun, “Dfanet: Deep feature aggregation
for real-time semantic segmentation”, en Actas de la
Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs. 9522–9531
, 2019.
[19] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu y N. Sang, “Bisenet:
Bilateral segmentation network for segmentación semántica en tiempo real”, en
Actas de la Conferencia Europea sobre Visión por Computadora, págs. 325–341
, 2018.
[20] RP Poudel, S. Liwicki y R. Cipolla, “Fast-scnn: Fast semantic
red de segmentación”, preimpresión de arXiv arXiv:1902.04502, 2019.
[21] M. Orsic, I. Kreso, P. Bevandic y S. Segvic, “En defensa de arquitecturas de imagenet previamente entrenadas
para la segmentación semántica en tiempo real de imágenes de conducción en carretera ”, en Actas de la Conferencia IEEE sobre
visión por computadora y reconocimiento de patrones, págs. 12607–12616, 2019.
[22] P. Hu, F. Perazzi, FC Heilbron, O. Wang, Z. Lin, K. Saenko y
S. Sclaroff, “Segmentación semántica en tiempo real con atención rápida”,
preimpresión de arXiv arXiv:2007.03815, 2020.
[23] X. Li, A. You, Z. Zhu, H. Zhao, M. Yang, K. Yang, e Y. Tong,
“Flujo semántico para un análisis de escenas rápido y preciso”, preimpresión de arXiv
arXiv:2002.10120, 2020.
[24] C. Yu, C. Gao, J. Wang, G. Yu, C. Shen y N. Sang, “Bisenet
v2: Red bilateral con agregación guiada para segmentación semántica en tiempo real
”, preimpresión de arXiv arXiv:2004.02147 , 2020.
[25] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff y H. Adam, “Encoderdecoder with atrous separable convolution for semantic image segmentation”, en Actas de la Conferencia europea sobre visión por computadora, págs. 801–818,
2018.
[ 26] K. Sun, Y. Zhao, B. Jiang, T. Cheng, B. Xiao, D. Liu, Y. Mu, X. Wang,
W. Liu y J. Wang, “Representaciones de alta resolución para etiquetado píxeles
y regiones”, preimpresión de arXiv arXiv:1904.04514, 2019.
[27] K. He, X. Zhang, S. Ren y J. Sun, “Aprendizaje residual profundo para imágenes
reconocimiento”, en Actas de la Conferencia IEEE sobre visión por computadora
y reconocimiento de patrones, págs. 770–778, 2016.
[28] MD Zeiler, D. Krishnan, GW Taylor y R. Fergus, “Deconvolutional Networks”, en 2010 IEEE Conferencia de la Computer Society sobre
visión por computadora y reconocimiento de patrones, págs.
[29] H. Si, Z. Zhang, F. Lv, G. Yu y F. Lu, “Segmentación semántica en tiempo real
a través de una red de fusión espacial múltiple”, preimpresión de arXiv arXiv
:1911.07217, 2019.
[30] S. Kumaar, Y. Lyu, F. Nex y MY Yang, “Cabinet: Red de agregación de contexto eficiente
para segmentación semántica de baja latencia”,
preimpresión de arXiv arXiv:2011.00993, 2020.
[31] A. Howard, M. Sandler, G. Chu, L.-C. Chen, B. Chen, M. Tan, W. Wang,
Y. Zhu, R. Pang, V. Vasudevan, et al., “Searching for mobilenetv3”, en
Actas de la Conferencia Internacional IEEE sobre Visión por Computadora,
págs. 1314–1324, 2019.
[32] AG Howard, M. Zhu , B. Chen, D. Kalenichenko, W. Wang,
T. Weyand, M. Andreetto y H. Adam, “Mobilenets: redes neuronales convolucionales eficientes para aplicaciones de visión móviles”, preimpresión de arXiv arXiv
:1704.04861, 2017.
[33] X. Zhang, X. Zhou, M. Lin y J. Sun, “Shufflenet: una red neuronal convolucional extremadamente eficiente para dispositivos móviles”, en Actas
de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones,
págs. 2018.
[34] F. Chollet, “Xception: aprendizaje profundo con convoluciones separables en profundidad”, en Actas de la Conferencia IEEE sobre visión por computadora y
reconocimiento de patrones, págs. 1251-1258, 2017.
[35] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov y L.-C. Chen,
“Mobilenetv2: residuos invertidos y cuellos de botella lineales”, en Actas
de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones,
págs. 4510–4520, 2018.
[36] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang y H. Lu, “
Red de atención dual para segmentación de escenas”, en Actas de la Conferencia IEEE
sobre visión por computadora y reconocimiento de patrones, págs. 3146–3154, 2019.
[37] Y. Yuan y J. Wang, "Ocnet: red de contexto de objetos para análisis de escenas",
Preimpresión de arXiv arXiv:1809.00916, 2018.
[38] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei y W. Liu, “Ccnet:
atención cruzada para la segmentación semántica”, en Actas de la
Conferencia Internacional IEEE sobre Visión por Computadora, págs. 603–612, 2019.
[39] S. Gao, M.-M. Cheng, K. Zhao, X.-Y. Zhang, M.-H. Yang y PH Torr,
“Res2net: una nueva arquitectura troncal multiescala”, IEEE Transactions
on Pattern Analysis and Machine Intelligence, 2019.
[40] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth y B. Schiele, “El conjunto de datos de paisajes urbanos
para la comprensión semántica de la escena urbana”, en Actas de la
Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs.
3223, 2016.
[41] GJ Brostow, J. Fauqueur y R. Cipolla, “Clases de objetos semánticos
en video: una base de datos de verdad fundamental de alta definición”, Pattern Recognition
Letters, vol. 30, núm. 2, págs. 88–97, 2009.
[42] H. Caesar, J. Uijlings y V. Ferrari, “Coco-stuff: Thing and Stuff Classes
in Context”, en Actas de la conferencia IEEE sobre visión
y patrones por computadora. reconocimiento, págs. 1209–1218, 2018.
[43] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z.
Huang, A. Karpathy, A. Khosla, M Bernstein, et al., “
Desafío de reconocimiento visual a gran escala de Imagenet”, Revista Internacional de
Visión por Computadora, vol. 115, núm. 3, págs. 211–252, 2015.
[44] S. Xie, R. Girshick, P. Dollar, Z. Tu y K. He, “Transformaciones residuales agregadas
para redes neuronales profundas”, en Actas de la
Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs. 1492-1500
, 2017.
[45] V. Badrinarayanan, A. Kendall y R. Cipolla, “Segnet: una arquitectura de codificador-decodificador convolucional profunda para la segmentación de imágenes”, IEEE Transactions on
Pattern Analysis and Machine Intelligence, vol. 39,
núm. 12, págs. 2481–2495, 2017.
[46] M. Treml, J. Arjona-Medina, T. Unterthiner, R. Durgesh, F. Friedmann, P. Schuberth,
A. Mayr, M. Heusel, M. Hofmarcher , M. Widrich, et al.,
“Acelerar la segmentación semántica para la conducción autónoma”, en MLITS, NIPS Workshop, vol. 2, 2016.
[47] Y. Zhang, Z. Qiu, J. Liu, T. Yao, D. Liu y T. Mei, “Búsqueda de arquitectura personalizable para segmentación semántica”, en Actas de la Conferencia IEEE sobre visión por computadora
y reconocimiento de patrones, 11641-11650
, 2019.
[48] P. Lin, P. Sun, G. Cheng, S. Xie, X. Li y J. Shi, “Búsqueda de arquitectura guiada por gráficos para segmentación semántica en tiempo real”. en Actas de
la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones,
págs. 4203–4212, 2020.
[49] J. Wang, K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu,
Y. Mu, M. Tan, X. Wang, W. Liu y B. Xiao, “Aprendizaje profundo de representación de alta resolución
para el reconocimiento visual”, IEEE Transactions on
Pattern Analysis and Machine Intelligence, págs. 1– 1, 2020.
[50] A. Shrivastava, A. Gupta y R. Girshick, “Entrenamiento de detectores de objetos basados en regiones
con minería de ejemplos concretos en línea”, en Actas de la
Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs. 761–769,
2016
[51] W. Chen, X. Gong, X. Liu, Q. Zhang, Y. Li y Z. Wang, “Fasterseg:
Buscando una segmentación semántica en tiempo real más rápida”, preimpresión de arXiv arXiv
:1912.10917, 2019 .
[52] G. Neuhold, T. Ollmann, S. Rota Bulo y P. Kontschieder, “The
mapillary vistas dataset for semantic listening of street scene”, en
Actas de la conferencia internacional IEEE sobre visión por computadora
,
págs. , 2017.
[53] S. Chandra, C. Couprie e I. Kokkinos, “Campos aleatorios espacio-temporales profundos
para una segmentación de video eficiente”, en Actas de la
Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, págs. 8915–8924
, 2018.
[54] Z. Huang, X. Wang, Y. Wei, L. Huang, H. Shi, W. Liu y TS
Huang, "Ccnet: atención entrecruzada para la segmentación semántica", IEEE
Transactions on Pattern Analysis and Machine Intelligence, págs. 1–1,
2020.
[55] R. Zhang, S. Tang, Y. Zhang, J. Li y S. Yan, “Convoluciones adaptativas a escala para el análisis de escenas”, en Actas del IEEE International
Conferencia sobre visión por computadora, págs. 2031–2039, 2017.
[56] S. Kong y CC Fowlkes, “Análisis de escenas recurrentes con perspectiva
comprensión en el bucle”, en Actas de la Conferencia IEEE sobre
visión por computadora y reconocimiento de patrones, págs. 956–965, 2018.
[57] Z. Wu, C. Shen y A. Van Den Hengel, “Más amplio o más profundo: Revisando
el modelo resnet para el reconocimiento visual”, Pattern Recognition, vol. 90,
págs. 119-133, 2019.
[58] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu y N. Sang, “Aprendiendo una red de características discriminativas para la segmentación semántica”, en Actas
de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones,
págs. 1857–1866, 2018.
[59] H. Zhao, Y. Zhang, S. Liu, J. Shi, C. Change Loy, D. Lin y J Jia,
“Psanet: red de atención espacial puntual para el análisis de escenas”, en
Actas de la Conferencia Europea sobre Visión por Computadora (ECCV),
págs. 267–283, 2018.
[60] Y. Yuan, X. Chen y J. Wang, “Representaciones contextuales de objetos para la
segmentación semántica”, preimpresión de arXiv arXiv: 1909.11065, 2019

【DDRNets】Redes profundas de doble resolución para una segmentación semántica precisa y en tiempo real del paisaje de carreteras