【PIDNet】: una red de segmentación semántica en tiempo real inspirada en controladores PID

PIDNet: una red de segmentación semántica en tiempo real inspirada en controladores PID

https://arxiv.org/pdf/2206.02066.pdf
https://github.com/XuJiacong/PIDNet
Jiacong Xu Zixiang Xiong Shankar P. Bhattacharyya
Departamento de ECE, Universidad Texas A&M, College Station, TX 77843
[email protected] , [email protected], [email protected]
2023

Resumen : En tareas de segmentación semántica en tiempo real, la arquitectura de red de doble rama muestra su eficiencia y eficacia. Sin embargo,Un problema con los métodos que fusionan directamente detalles de alta resolución y contexto de baja frecuencia es que las características detalladas se ven fácilmente abrumadas por la información del contexto circundante.. Este fenómeno de sobreextensión limita la mejora en la precisión de la segmentación de los modelos de doble rama existentes. En este artículo, conectamos una red neuronal convolucional (CNN) y un controlador proporcional integral derivado (PID) y revelamos que la red de dos ramas es equivalente a un controlador proporcional integral (PI), que es esencialmente un problema de sobreextensión similar. Para aliviar este problema, proponemos una nueva arquitectura de red de tres ramas: PIDNet, que contiene tres ramas para analizar información detallada, de contexto y de límites respectivamente, y utiliza la atención de límites para guiar la fusión de las ramas de detalle y contexto. Nuestra familia PIDNet logra el mejor equilibrio entre velocidad de inferencia y precisión, y supera a todos los modelos existentes con una velocidad de inferencia similar en los conjuntos de datos Cityscapes y CamVid. Específicamente, PIDNet-S logra un 78,6 % de mIOU a una velocidad de inferencia de 93,2 FPS en paisajes urbanos y un 80,1 % de mIOU a una velocidad de inferencia de 153,7 FPS en CamVid.

1. Introducción

El controlador proporcional-integral-derivado (PID) es un concepto clásico ampliamente utilizado en sistemas y procesos dinámicos modernos, como la manipulación de robots [3], procesos químicos [24] y sistemas de energía [25]. Aunque en los últimos años se han desarrollado muchas estrategias de control avanzadas con mejor rendimiento de control, los controladores PID siguen siendo la primera opción para la mayoría de las aplicaciones industriales debido a su simplicidad y robustez. Además, la idea de controlador PID se ha extendido a muchos otros campos. Por ejemplo, los investigadores han introducido el concepto PID en la eliminación de ruido de imágenes [32], el descenso de gradiente estocástico [1] y la optimización numérica [50] para mejorar el rendimiento del algoritmo. En este artículo, diseñamos una arquitectura novedosa para tareas de segmentación semántica en tiempo real aplicando el concepto básico de controlador PID y demostramos a través de extensos experimentos que el rendimiento de nuestro modelo supera todos los trabajos anteriores y logra un mejor rendimiento en velocidad de inferencia y un equilibrio óptimo. se logra entre precisión, p.e.Figura 1mostrado.

Figura 1. Compensación entre velocidad de inferencia y precisión (reportada) para un modelo en tiempo real en el conjunto de pruebas Cityscapes [12]. Las estrellas azules representan nuestro modelo, mientras que los triángulos verdes representan otros modelos.

La segmentación semántica es una tarea fundamental cuyo objetivo es asignar cada píxel de una imagen de entrada a una etiqueta de clase específica para analizar escenas visuales. Con la creciente demanda de inteligencia, la segmentación semántica se ha convertido en un componente de percepción básico para aplicaciones como la conducción autónoma [16], el diagnóstico por imágenes médicas [2] y las imágenes de teledetección [54]. A partir de FCN [31], que ha logrado enormes mejoras con respecto a los métodos tradicionales, las redes convolucionales profundas dominan gradualmente el campo de la segmentación semántica y se proponen muchos modelos representativos [4, 6, 40, 48, 59, 60]. Para lograr un mejor rendimiento, se introducen varias estrategias para dotar a estos modelos de la capacidad de aprender dependencias contextuales entre píxeles a gran escala para evitar perder detalles importantes. Aunque estos modelos logran una precisión de segmentación alentadora, también requieren un costo computacional excesivo, lo que limita en gran medida su aplicación en escenarios en tiempo real, como vehículos autónomos [16] y cirugía robótica [44].

Para satisfacer las necesidades móviles o en tiempo real, los investigadores han propuesto muchos modelos de segmentación semántica eficientes y efectivos en el pasado. Específicamente, ENet [36] adopta un decodificador liviano y reduce la resolución de mapas de características en una etapa temprana. ICNet [58] codifica entradas de pequeño tamaño en rutas complejas y profundas para analizar información semántica de alto nivel. MobileNets [21, 42] utiliza convoluciones separables en profundidad para reemplazar las operaciones de convolución tradicionales. Estos primeros trabajos redujeron la latencia y el uso de memoria de los modelos de segmentación, pero la baja precisión limitó gravemente su uso en aplicaciones del mundo real. Recientemente, se han propuesto en la literatura muchos modelos novedosos y prometedores basados ​​en la arquitectura de red de dos ramas (TBN) y logran el mejor equilibrio entre velocidad y precisión [15, 20, 38, 39, 52].

Figura 2. Problema de sobreimpulso para sistemas dinámicos (izquierda |) y segmentación de imágenes (| derecha). Izquierda |: Respuesta al paso de los controladores PI y PID del sistema de segundo orden; | Derecha: Desde la primera fila hasta la última fila, recortada de anotaciones reales, salida DDRNet-23 [20] y ADB-Bag-DDRNet-23 respectivamente Imagen de (nuestro modelo).

En este artículo, examinamos la arquitectura de TBN desde la perspectiva de un controlador PID y señalamos que TBN es equivalente a un controlador PI con problemas de sobrepaso, comoFigura 2mostrado. Para aliviar este problema, diseñamos una nueva arquitectura de red de tres ramas, a saber, PIDNet, y demostramos su superioridad en los conjuntos de datos Cityscapes [12], CamVid [5] y PASCAL Context [33]. También proporcionamos estudios de ablación y visualizaciones de funciones para comprender mejor la funcionalidad de cada módulo en PIDNet. Se puede acceder al código fuente a través del siguiente enlace: https://github.com/XuJiacong/PIDNet

Las principales aportaciones de este artículo se dan en tres aspectos:

  • Establecimos la conexión entre redes neuronales convolucionales profundas y controladores PID, y propusimos una serie de redes de tres ramas basadas en la arquitectura del controlador PID.
  • Proponemos algunos módulos eficientes, como el módulo Bag fusion que equilibra características detalladas y características contextuales, para mejorar el rendimiento de PIDNet.
  • PIDNet logra el mejor equilibrio entre velocidad de inferencia y precisión entre todos los modelos existentes. En particular, PIDNet-S alcanza un 78,6 % de mIOU a 93,2 FPS, y PIDNet-L demuestra la mayor precisión (80,6 % de mIOU) en el conjunto de pruebas de paisajes urbanos sin la necesidad de que las herramientas de aceleración se ejecuten en el dominio de tiempo real.

2. Trabajo relacionado

Esta sección analizará métodos representativos para lograr requisitos de alta precisión y tiempo real, respectivamente.

2.1 Segmentación semántica de alta precisión

Los primeros métodos de segmentación semántica se basaban en la arquitectura codificador-decodificador [4, 31, 40]. En esta arquitectura, el codificador expande gradualmente su campo receptivo mediante convolución gradual o operaciones de agrupación, y el decodificador recupera información detallada de la semántica de alto nivel mediante deconvolución o muestreo ascendente. Sin embargo, los detalles espaciales se pasan por alto fácilmente durante el proceso de reducción de resolución de la red codificador-decodificador. Para aliviar este problema, se propuso la convolución dilatada [53], que puede expandir el campo de visión sin reducir la resolución espacial. Basándose en esta tecnología, la serie DeepLab [7-9] utiliza diferentes tasas de expansión para la convolución dilatada en la red, lo que ha logrado enormes mejoras en comparación con los métodos anteriores. Cabe señalar que la convolución dilatada no es adecuada para la implementación de hardware debido a su acceso a memoria no contigua. PSPNet [59] introduce el Pyramid Pooling Module (PPM) para analizar información contextual de múltiples escalas, mientras que HRNet [48] utiliza múltiples rutas y conexiones bidireccionales para aprender y fusionar representaciones en diferentes escalas. Inspirándose en la capacidad de análisis de dependencia de largo alcance del mecanismo de atención [47] en el procesamiento del lenguaje, se introdujeron operaciones no locales [49] en la visión por computadora y dieron como resultado muchos modelos precisos [17, 23, 55].

2.2 Segmentación semántica en tiempo real

Para lograr el mejor equilibrio entre velocidad de inferencia y precisión, se han propuesto muchas arquitecturas de red, que se pueden resumir a grandes rasgos de la siguiente manera:

El codificador y decodificador liviano SwiftNet [35] toma entradas de baja resolución para obtener semántica de alto nivel y utiliza entradas de alta resolución para proporcionar suficientes detalles para su decodificador liviano. DFANet [27] introduce una red troncal liviana basada en convoluciones separables en profundidad modificando la arquitectura de Xception [11] y reduce el tamaño de entrada para mejorar la velocidad de inferencia. ShuffleSeg [18] adopta ShuffleNet [57] como red troncal, combinando reordenamiento de canales y convolución agrupada para reducir los costos computacionales. Sin embargo, la mayoría de estas redes todavía adoptan una arquitectura codificador-decodificador, lo que requiere que el flujo de información pase a través de un codificador profundo y luego regrese al decodificador, lo que resulta en una latencia excesiva. Además, dado que la optimización de la convolución separable en profundidad en GPU aún es inmadura, la convolución tradicional tiene una velocidad más rápida pero más FLOP y parámetros [35]. Por tanto, buscamos modelos más eficientes que eviten la descomposición convolucional y las arquitecturas codificador-decodificador.

La dependencia del contexto de la arquitectura de red de doble rama se puede extraer a través de grandes campos receptivos, mientras que los detalles espaciales son cruciales para la delimitación de límites y el reconocimiento de objetos a pequeña escala. Para encargarse de ambos, los autores de BiSeNet [52] propusieron una arquitectura de red de dos ramas (TBN), que contiene dos ramas con diferentes profundidades para la incrustación de contexto y el análisis de detalles, al mismo tiempo que utilizan un módulo de fusión de características (FFM) para fusionar el contexto y los detalles. Sobre la base de esta arquitectura, también se han propuesto algunos trabajos de seguimiento para mejorar sus capacidades de representación o reducir la complejidad del modelo [38, 39, 51]. En particular, DDRNet [20] introduce conexiones bilaterales para mejorar el intercambio de información entre las ramas de contexto y detalle, logrando resultados de última generación en segmentación semántica en tiempo real. Sin embargo, la fusión directa de la semántica detallada original y la información contextual de baja frecuencia conlleva el riesgo de que los límites de los objetos sean excesivamente erosionados por los píxeles circundantes, y que los objetos pequeños puedan verse abrumados por objetos grandes adyacentes (p. ej.Figuras 2 y 3mostrado).

3. Método

Figura 3. Arriba |: Analogía entre el controlador PID y la red propuesta; | Abajo: Izquierda: Ponga a cero el área de la máscara circundante y calcule la similitud entre la característica actual y la característica original para cada píxel; Derecha: De las imágenes de la La primera columna hasta la última columna representan anotaciones de verdad sobre el terreno, todas las predicciones de rama de DDRNet-23, solo predicciones de rama detalladas y solo predicciones de rama de contexto, respectivamente.

El controlador PID consta de tres componentes: controlador proporcional (P), controlador integral (I) y controlador derivativo (D), comoFigura 3-arribamostrado. La implementación del controlador PI se puede escribir como:

cout ⁡ [ n ] = kpe [ n ] + ki ∑ i = 0 ne [ i ] (1) \operatorname { c_{ out }} [ n ] = k _ { p } e [ n ] + k _i \sum_ { yo = 0 } ^ { norte } mi [ yo ] \tag{1}Cfuera[ n ]=kpmi [ n ]+kyoyo = 0nortemi [ yo ]( 1 )
El controlador P se centra en la señal actual, mientras que el controlador I acumula todas las señales pasadas. Debido a los efectos de inercia acumulados, la salida de un controlador PI simple puede sobrepasarse cuando la señal cambia en direcciones opuestas. Luego se introduce un controlador D. Cuando la señal se vuelve más pequeña, el componente D se volverá negativo y desempeñará un papel de amortiguación para reducir el sobreimpulso. De manera similar, TBN analiza el contexto y los detalles por separado a través de múltiples capas convolucionales con o sin avances. Considere un ejemplo 1D simple donde tanto la rama de detalle como la rama de contexto constan de 3 capas sin normalización por lotes ni operaciones ReLU. Entonces, el mapa de salida se puede calcular de la siguiente manera:

OD [ i ] = K i − 3 DI [ i − 3 ] + ⋯ + K i DI [ i ] + ⋯ + K i + 3 DI [ i + 3 ] (2) O _ { D } [ i ] = K ^D _ { i - 3 } I [ i - 3 ] + \cdots + K^D _ { i } I[ i ] + \cdots + K ^D_ { i + 3 } I[ i + 3 ] \tag{ 2}ohre[ yo ]=kyo - 3reyo [ yo3 ]++kireyo [ yo ]++kyo + 3reyo [ yo+3 ]( 2 )
OC [ i ] = K i − 7 CI [ i − 7 ] + ⋯ + K i CI [ i ] + ⋯ + K i + 7 CI [ i + 7 ] (3) O _ { C } [ i ] = K _ { i - 7 } ^ { C }I [ i - 7 ] + \cdots + K _ { i } ^ { C } I[ i ] + \cdots + K _ { i + 7 } ^ { C } Yo[ yo + 7 ]\tag{3}ohC[ yo ]=kyo - 7Cyo [ yo7 ]++kiCyo [ yo ]++kyo + 7Cyo [ yo+7 ]( 3 )
其中,K i D = k 31 k 22 k 13 + k 31 k 23 k 12 + k 32 k 21 k 13 + k 32 k 22 k 12 + k 32 k 23 k 13 + k 33 k 21 k 12 + k 33 k 22 k 11 K^D_i= k_{31}k_{22}k_{13} + k_{31}k_{23}k_{12} + k_{32}k_{21}k_{13} + k_{32}k_{22}k_{12} + k_{32}k_{23}k_{13} + k_{33}k_{21}k_{12} + k_{33}k_{22}k_{11 }kire=k31k22k13+k31k23k12+k32k21k13+k32k22k12+k32k23k13+k33k21k12+k33k22k11, y K i C = k 32 k 22 k 12 K^C_i = k_{32}k_{22}k_{12}kiC=k32k22k12. Aquí, kmn k_{mn}kmnSe refiere al enésimo valor del núcleo de convolución en la enésima capa. Desde ∣ kmn ∣ |kmn|kmn se distribuye principalmente en el rango de (0, 0.01) (para DDRNet-23, el 92% de los valores están dentro de este rango) y está limitado por 1. El coeficiente de cada término disminuye exponencialmente a medida que aumenta el número de capas aumenta. . Por lo tanto, para cada vector de insumos, más términos significan una mayor probabilidad de contribución al producto final. En la rama detallada,I [ i − 1 ], I [ i ] I[i - 1], I[i]yo [ yo1 ] , I [ i ] sumaI [i + 1] I[i + 1]yo [ yo+1 ] representa más del 70% del número total de artículos, lo que significa que la rama detallada presta más atención a la información local. Por el contrario, en la rama de contexto,I [ i − 1 ] , I [ i ] I[i - 1], I[i]yo [ yo1 ] , I [ i ] sumaI [i + 1] I[i + 1]yo [ yo+1 ] solo representa menos del 26% del número total de elementos, por lo que la rama de contexto presta más atención a la información circundante.Figura 3-AbajoMuestra que la rama de contexto es menos sensible a los cambios en la información local. La rama de detalle y la rama de contexto en el dominio espacial se comportan como PP en el dominio temporalP (actual) yI(I(Yo ( todos los anteriores) controladores.

Establezca el zz del controlador PID enz − 1 z^{-1}en transformación zz1 se reemplaza pore − j ω e^{-jω}mi , se puede expresar como:

C ( z ) = kp + ki ( 1 − e − jw ) − 1 + kd ( 1 − e − jw ) (4) C ( z ) = k _ { p } + k _ { i } ( 1 - e ^ { - jw } ) ^ { - 1 } + k _ { d } ( 1 - e ^ { - jw } )\tag{4}C ( z )=kp+kyo( 1mij w )1+kd( 1mij w )( 4 )
Cuando la frecuencia de entradaω ωCuando ω aumenta,IIyo yddLas ganancias del controlador D se vuelven más pequeñas y más grandes respectivamente, por lo que los controladores P, I y D funcionan como filtros de paso todo, paso bajo y paso alto. Dado que el controlador PI presta más atención a la parte de baja frecuencia de la señal de entrada y no puede responder inmediatamente a cambios rápidos en la señal, es inherentemente propenso a problemas de sobreimpulso. DDLos controladores D reducen el exceso al hacer que la salida de control sea sensible a los cambios en la señal de entrada.Figura 3-AbajoComo se muestra arriba, la rama detallada analiza diversa información semántica, aunque con menos precisión, mientras que la rama contextual agrega información contextual de baja frecuencia y es semánticamente similar a un filtro de promedio grande. La fusión directa de información detallada y contextual da como resultado la pérdida de algunas características detalladas. Por lo tanto, concluimos que TBN es equivalente a un controlador PI en el dominio de Fourier.

3.1. PIDNet: una novedosa red de tres ramas

Para aliviar el problema de sobreimpulso, adjuntamos una rama derivada auxiliar (ADB) al TBN para simular espacialmente el controlador PID y resaltar la información semántica de alta frecuencia. La semántica de los píxeles dentro de cada objeto es consistente y solo se vuelve inconsistente en los límites de los objetos adyacentes. Por lo tanto, la diferencia en la semántica es distinta de cero solo en los límites de los objetos. El objetivo de ADB es la detección de límites. Por lo tanto, construimos una nueva arquitectura de segmentación semántica en tiempo real de tres ramas, a saber, Red proporcional-integral-derivada (PIDNet), comoFigura 4mostrado.

Figura 4. Descripción general de la arquitectura básica de nuestra red proporcional-integral-derivada (PIDNet) propuesta. S y B representan semántica y límites, Add y Up representan operaciones de suma de elementos y muestreo ascendente bilineal respectivamente; BAS-Loss representa pérdida de entropía cruzada con reconocimiento de límites [46]. Las líneas discontinuas y los bloques relacionados se ignoran durante la fase de inferencia.

PIDNet tiene tres ramas con responsabilidades complementarias: la rama proporcional (P) analiza y preserva información detallada en mapas de características de alta resolución; la rama integral (I) agrega información contextual local y globalmente para analizar dependencias de largo alcance; la rama derivada (D) ) la rama extrae características de alta frecuencia para predecir áreas límite. Al igual que [20], también adoptamos bloques residuales en cascada [19] como estructura principal para facilitar el hardware. Además, para lograr una alta eficiencia, las profundidades de las ramas P, I y D se establecen en moderada, profunda y poco profunda. Por lo tanto, al profundizar y ampliar el modelo, generamos una serie de PIDNets (PIDNet-S, M y L).

Siguiendo los métodos de [20, 28, 51], colocamos un encabezado semántico en la salida del primer módulo Pag para generar una pérdida semántica adicional l0 para optimizar mejor toda la red. A diferencia de la pérdida de dados [13], adoptamos la pérdida de entropía cruzada binaria ponderada l1 para abordar el problema de desequilibrio de la detección de límites, porque los límites aproximados son más adecuados para resaltar el área del límite y mejorar las características de los objetos pequeños. l2 y l3 representan la pérdida de CE, mientras que utilizamos la salida del cabezal de límite para utilizar la pérdida de CE con reconocimiento de límites [46] para coordinar las tareas de segmentación semántica y detección de límites y mejorar la funcionalidad del módulo Bag. El cálculo de BAS-Loss se puede expresar como:

l 3 = − ∑ i , c { 1 : bi > t } ( si , c log ⁡ i ^ , c ) (5) l _ { 3 } = - \sum _ { i , c } \{ 1 : b _ { i } \gt t \} ( s _ { i , c } \log _ {\hat i , c } )\tag{5}yo3=yo , c{ 1:byo>t } ( syo , ciniciar sesióni^ ,c)( 5 )

Entre ellos, t representa el umbral predefinido, bi, si, c b_i, s_{i,c}byosyo , csi ^ , c s_{\hat i,c}si^ ,cSon la salida del cabezal límite, el valor verdadero de la segmentación y el resultado de la predicción del i-ésimo píxel para la categoría c. Por tanto, la función de pérdida final de PIDNet se puede expresar como:

L os = λ 0 l 0 + λ 1 l 1 + λ 2 l 2 + λ 3 l 3 (6) L os = λ_ { 0 } l _ { 0 } + λ _ { 1 } l _ { 1 } + λ _ { 2 } l _ { 2 } + λ _ { 3 } l _ { 3 }\tag{6}pérdida _=yo0yo0+yo1yo1+yo2yo2+yo3yo3( 6 )

Empíricamente, establecemos los parámetros de pérdida de entrenamiento de PIDNet como λ 0 = 0,4, λ 1 = 20, λ 2 = 1, λ 3 = 1 λ_0 = 0,4, λ_1 = 20, λ_2 = 1, λ_3 = 1yo0=0,4 litros _1=20 , l2=1 , l3=1 yt = 0,8 t = 0,8t=0,8 .

3.2.Pág: aprenda selectivamente información semántica de alto nivel

Figura 5. Diagrama esquemático del módulo Pag. σ (x) representa la función sigmoidea; el tamaño del núcleo de convolución de todas las convoluciones aquí es 1 × 1.

Las conexiones laterales utilizadas en [20, 35, 48] mejoran la transferencia de información entre mapas de características de diferentes escalas y mejoran la capacidad de representación del modelo. En PIDNet, la información semántica rica y precisa proporcionada por la rama I es crucial para el análisis detallado y la detección de límites de las ramas P y D, que tienen relativamente pocas capas y canales. Por lo tanto, tratamos la rama I como una copia de seguridad de las otras dos ramas y hacemos que les proporcione la información que necesitan. A diferencia de la rama D que agrega directamente el mapa de características proporcionado, presentamos un módulo de fusión guiado por atención de píxeles (Pag), comoFigura 5Como se muestra, se utiliza para que la rama P aprenda selectivamente características semánticas útiles de la rama I sin sentirse abrumado. El concepto básico de Pag proviene del mecanismo de atención [47]. Defina el vector del píxel correspondiente en la rama P y en la rama I del mapa de características como v ⃗ p \vec v_pv pv ⃗ i \vec v_iv yo, entonces la salida de la función sigmoidea se puede expresar como:

σ = S igmoide ( fp ( v ⃗ p ) ⋅ fi ( v ⃗ i ) ) (7) σ= S igmoide ( f _ { p } (\vec v_p)·f_i(\vec v_i))\tag{7}pag=S i g m o i d ( fp(v p) Fyo(v yo))( 7 )

Entre ellos, σ representa la posibilidad de que estos dos píxeles pertenezcan al mismo objeto. Si σ es mayor, confiamos más en v ⃗ i \vec v_iv yo, porque la rama I es semánticamente más rica y precisa, y viceversa. Por tanto, la salida de Pag se puede expresar como:

O ut P ag = σ v ⃗ i + ( 1 − σ ) v ⃗ p (8) Out_{Pag}=σ\vec v_i+(1-σ)\vec v_p\tag{8}fuera _ _página _ _=pagv yo+( 1s )v p( 8 )

3.3 PAPPM: contexto de agregación rápida

Para construir mejor escenas previas globales, PSPNet [59] presenta el Pyramid Pooling Module (PPM), que concatena mapas de pooling de múltiples escalas antes de las capas convolucionales para formar representaciones de contexto local y global. El PPM de agregación profunda (DAPPM) propuesto por [20] mejora aún más la capacidad de integración de contexto de PPM y demuestra un rendimiento excelente. Sin embargo, el proceso de cálculo de DAPPM no se puede paralelizar porque su profundidad es grande, lo que consumirá mucho tiempo, y DAPPM tiene demasiados canales para cada escala, lo que puede exceder la capacidad de representación del modelo liviano. Por lo tanto, modificamos el método de conexión en DAPPM para hacerlo paralelizable, comoFigura 6se muestra y reduce el número de canales por escala de 128 a 96. Este nuevo módulo de agregación de contexto se llama Parallel Aggregation PPM (PAPPM) y se aplica a PIDNet-M y PIDNet-S para garantizar su velocidad. Para nuestro modelo profundo PIDNet-L, todavía elegimos DAPPM considerando su profundidad, pero reducimos la cantidad de canales para reducir la carga computacional y mejorar la velocidad.

Figura 6. Diagrama esquemático de la estructura paralela de PAPPM. Avg(5,2) significa usar un núcleo de convolución de 5 × 5 y una agrupación promedio con un paso de 2.

3.4 Bolsa: Detalles del equilibrio y contexto

Figura 7. Implementación de un solo canal de (a) módulo Bag y (b) módulo Light-Bag en casos extremos. P, I y D representan el resultado de características detalladas, características contextuales y características de límite, respectivamente. σ representa la salida de la función sigmoidea.

Dadas las características de límites extraídas por ADB, adoptamos la atención de límites para guiar la fusión de representaciones detalladas (P) y contextuales (I). Específicamente, diseñamos un módulo de fusión guiado por atención de límites (Bag), comoFigura 7Como se muestra, se utilizan para llenar regiones de alta y baja frecuencia con características detalladas y características contextuales, respectivamente. Cabe señalar que la rama de contexto es semánticamente precisa pero sufre una mayor pérdida en detalles espaciales y geométricos, especialmente en regiones límite y objetos pequeños. Al beneficiarnos de ramas detalladas que preservan mejores detalles espaciales, obligamos al modelo a confiar más en ramas detalladas en las regiones fronterizas y llenar otras regiones con características contextuales. Defina los vectores correspondientes a los píxeles de los mapas de características P, I y D como v ⃗ p \vec v_p respectivamentev pv ⃗ i \vec v_iv yov ⃗ d \vec v_dv d, entonces la salida de Sigmoide, salida de Bolsa y Light-Bag se puede expresar como:
σ = S igmoide ( v ⃗ d ) (9) σ=S igmoide(\vec v_d)\tag{9}pag=S i g m o i d (v d)( 9 )
O ut P ag = fout ( ( 1 − σ ) ⊗ v ⃗ i + σ ⊗ v ⃗ p ) (10) Out_{Pag}=f_{out}((1-σ)⊗\vec v_i+σ ⊗\vec v_p)\tag{10}fuera _ _página _ _=Fo u t(( 1s )v yo+pagv p)( 10 )
O outlight = fp ( ( 1 − σ ) ⊗ v ⃗ i + v ⃗ p ) + fi ( σ ⊗ v ⃗ p + v ⃗ i ) (11) Out_{light}=f_p((1-σ) ⊗\vec v_i+\vec v_p)+f_i(σ⊗\vec v_p+\vec v_i)\tag{11}fuera _ _luz _ _ _ _=Fp(( 1s )v yo+v p)+Fyo( pag.v p+v yo)( 11 )

Aquí, f representa la combinación de convolución, normalización por lotes y ReLU. Aunque reemplazamos la convolución 3 × 3 en Bag con dos convoluciones 1 × 1 en Light-Bag, las funciones de Bag y Light-Bag son similares, es decir, cuando σ > 0.5, el modelo es más confiable Características detalladas, de lo contrario Prefiere la utilización de información contextual.

4. Experimentar

En esta sección, entrenamos y probamos nuestro modelo en conjuntos de datos de referencia de paisajes urbanos, CamVid y PASCAL Context.

4.1 Conjunto de datos

Paisajes urbanos Cityscapes [12] es uno de los conjuntos de datos de segmentación de escenas urbanas más famosos, que contiene 5000 imágenes recopiladas desde perspectivas de automóviles en diferentes ciudades. Las imágenes se dividieron en 2975 para entrenamiento, 500 para validación y 1525 para prueba. La resolución de la imagen es 2048×1024, lo que supone un desafío para los modelos en tiempo real. Aquí sólo se utilizan conjuntos de datos finamente anotados.

CamVid CamVid [5] proporciona 701 imágenes de escenas de conducción, de las cuales 367 se utilizan para entrenamiento, 101 para validación y 233 para pruebas. La resolución de la imagen es 960 × 720 y el número de categorías anotadas es 32, de las cuales 11 categorías se utilizan para una comparación justa con trabajos anteriores.

Contexto PASCAL: Contexto PASCAL [33] proporciona etiquetas semánticas para toda la escena, que contiene 4998 imágenes de entrenamiento y 5105 imágenes de validación. Aunque este conjunto de datos se utiliza principalmente para evaluar modelos de alta precisión, aquí lo explotamos para demostrar las capacidades de generalización de PIDNet. También se evaluaron las situaciones de 59 categorías y 60 categorías de escenarios.

4.2 Implementar una capacitación previa detallada

Antes de ajustar el modelo, lo entrenamos previamente utilizando ImageNet [41], que es el enfoque adoptado por la mayoría de los trabajos anteriores [20, 34, 35]. Eliminamos la rama D y fusionamos características directamente en la etapa final para construir el modelo de clasificación. Se entrenan un total de 90 épocas, con la tasa de aprendizaje inicial establecida en 0,1 y multiplicada por 0,1 en las épocas 30 y 60. Para aumentar los datos, recortamos aleatoriamente la imagen a 224 × 224 y la volteamos horizontalmente. tren. Nuestro protocolo de entrenamiento es casi idéntico al trabajo anterior [15, 20, 52]. Específicamente, adoptamos una estrategia polinómica para actualizar la tasa de aprendizaje y realizamos recortes aleatorios, volteo horizontal aleatorio y escalamiento aleatorio (rango [0.5, 2.0]) para aumentar los datos. Para Cityscapes, CamVid y PASCAL Context, el número de épocas de entrenamiento, la tasa de aprendizaje inicial, la disminución del peso, el tamaño del cultivo y el tamaño del lote son [484, 1 e − 2, 5 e − 4, 1024 × 1024, 12 ] y [200, respectivamente 1 e − 3 , 5 e − 4 , 960 × 720 , 12 ] [484, 1e^{-2}, 5e^{-4}, 1024×1024, 12], [200, 1e^{-3 }, 5e^{-4}, 960×720, 12][ 484 ,1 mi2 ,5 e4 ,1024×1024 ,12 ] [ 200 ,1 mi3 ,5 e4 ,960×720 ,12 ] Suma[ 200 , 1 e − 3 , 1 e − 4 , 520 × 520 , 16 ] [200, 1e^{-3}, 1e^{-4}, 520×520, 16][ 200 ,1 mi3 ,1 mi4 ,520×520 ,16 ] . De acuerdo con el método de [20, 51], ajustamos el modelo previamente entrenado de Cityscapes, entrenamos CamVid y realizamos el entrenamiento enlr < 5 e − 4 lr < 5e^{-4}l r<5 e− Dejar de entrenar a las 4 para evitar el sobreajuste. razonamiento. Antes de realizar la prueba, nuestro modelo se entrena utilizando los conjuntos de entrenamiento y validación de Cityscapes y CamVid. Medimos la velocidad de inferencia en una plataforma que consta de un único entorno RTX 3090, PyTorch 1.8, CUDA 11.2, cuDNN 8.0 y Windows-Conda. Siguiendo el protocolo de medición propuesto por [10] y los métodos de [20, 35, 45], integramos la normalización por lotes en la capa convolucional y establecemos el tamaño del lote en 1 para medir la velocidad de inferencia.

4.3 Estudios de ablación

Tabla 1. Estudio analítico de ADB-Bag en BiSeNet y DDRNet


ADB en una red de dos sucursales. Para demostrar la eficacia del método PID, combinamos ADB y Bag con modelos existentes. Aquí, implementamos dos redes representativas de dos ramas: BiSeNet [52] y DDRNet [20] y realizamos experimentos usando ADB y Bag, logrando una mayor precisión que sus modelos originales en el conjunto de validación Cityscapes, comotabla 1mostrado. Sin embargo, el cálculo adicional ralentiza significativamente su velocidad de inferencia, lo que nos motivó a crear PIDNet.

Tabla 2. Estudio de ablación de Pag y Bag en PIDNet-L. IM está pre-entrenado con ImageNet [41], Agregar es elemento y operaciones de suma, y ​​Ninguno significa que no hay conexión lateral.

Tabla 3. Investigación analítica sobre PAPPM y Light-Bag en PIDNet-S

Insertar descripción de la imagen aquí

Colaboración entre Pag y Bag. La rama P utiliza el módulo Pag para aprender información útil de la rama I antes de la etapa de fusión, mientras que el módulo Bag guía la fusión de características detalladas y contextuales. Como se muestra en la Tabla 2, las conexiones laterales pueden mejorar significativamente la precisión del modelo y el entrenamiento previo puede mejorar aún más el rendimiento. En nuestro escenario, la combinación de conexión del lado Add y módulo de fusión Bag o conexión del lado Pag y módulo Add fusion tiene poco sentido, ya que los detalles de preservación deben ser consistentes en toda la red. Por lo tanto, solo necesitamos comparar el rendimiento de Add + Add y Pag + Bag,Tabla 2yTabla 3Los resultados experimentales demuestran la superioridad de la colaboración entre Pag y Bag (o Light-Bag).Figura 8La visualización del mapa de características muestra que en el mapa sigmoideo de la segunda Pag, los objetos pequeños se vuelven más oscuros que los objetos grandes y la rama I pierde información más detallada. Además, la salida del módulo Bag mejora en gran medida las características de las áreas límite y los objetos pequeños, comoFigura 9Como se muestra, esto explica por qué elegimos la detección de límites aproximada.

Figura 8. Visualización de funciones del módulo Pag. La primera línea de izquierda a derecha es la imagen de entrada original, entrada P, entrada I y la salida de la función sigmoidea de la primera Pag; la segunda línea es la etiqueta real, entrada P, entrada I y la salida sigmoidea de la segunda Pag; la tercera línea, las filas 1 y 4, son los resultados correspondientes a otra imagen.

Figura 9. Visualización de funciones del módulo Bag. La primera fila de izquierda a derecha es la imagen de entrada original, la etiqueta real, los resultados de predicción de DDRNet-23 y los resultados de predicción de PIDNet-M; la segunda fila son las entradas P, I y D de Light-Pag en PIDNet. -M y el resultado final. ; La tercera y cuarta filas son los resultados correspondientes de otra imagen.

La eficiencia de PAPPM. Para modelos en tiempo real, un módulo de agregación de contexto complejo puede ralentizar gravemente la inferencia y exceder las capacidades de representación de la red. Por lo tanto, proponemos PAPPM, que consta de una estructura paralela y una pequeña cantidad de parámetros. Los resultados experimentales en la Tabla 3 muestran que PAPPM logra la misma precisión que DAPPM [20] pero es 9,5 FPS más rápido para nuestro modelo liviano.

Tabla 4. Estudio de perfilado de pérdidas adicionales y OHEM en PIDNet-L.

Validez de pérdidas adicionales. Para mejorar el efecto de optimización de toda la red y enfatizar la funcionalidad de cada componente, introducimos tres pérdidas adicionales en PIDNet. de acuerdo aTabla 4, pérdida de límite l 1 l_1yo1y pérdida consciente de los límites l 3 l_3yo3Para un mejor rendimiento es necesario, especialmente la pérdida de límites (+1,1% mIOU), lo que demuestra claramente la necesidad de la rama D, mientras que Online Hard Sample Mining (OHEM) [43] mejora aún más la precisión.

4.4 Comparación

CámaraVid. Para el conjunto de datos CamVid [5], solo la precisión de DDRNet es comparable a nuestro modelo, por lo que probamos su velocidad en nuestra plataforma usando la misma configuración para una comparación justa, considerando que nuestra plataforma es más eficiente que la de ellos avanzada.tabla 5Los resultados experimentales muestran que la precisión de todos nuestros modelos supera el 80% mIOU, mientras que PIDNet-S-Wider, que simplemente duplica el número de canales de PIDNet-S, logra la mayor precisión con una mayor ventaja, superando a los modelos anteriores. Además, PIDNet-S supera en precisión al modelo anterior DDRNet-23-S de última generación, mejorando mIOU en un 1,5 % y añadiendo solo aproximadamente 1 milisegundo de latencia.

Tabla 5. Comparación de velocidad y precisión en el conjunto de datos CamVid. Los modelos previamente entrenados usando Cityscapes [12] están marcados con †; la velocidad de inferencia de los modelos marcados con * se probó en nuestra plataforma.

Paisajes urbanos. Trabajos anteriores en tiempo real consideran Cityscapes [12] como un punto de referencia estándar, considerando sus anotaciones de alta calidad. comoTabla 6Como se muestra, probamos la velocidad de inferencia de los modelos lanzados en los últimos dos años en la misma plataforma, sin utilizar ninguna herramienta de aceleración, para hacer una comparación justa, al igual que las PIDNet. Los resultados experimentales muestran que PIDNets logra el mejor equilibrio entre velocidad de inferencia y precisión. Específicamente, PIDNet-L superó a SFNet (ResNet-18) † y DDRNet-39 en velocidad y precisión, y se convirtió en el más preciso en el dominio de tiempo real al aumentar la precisión de la prueba del 80,4% al 80,64% del modelo mIOU. PIDNet-M y PIDNet-S también proporcionan mayor precisión en comparación con otros modelos con velocidad de inferencia similar. Al eliminar los módulos Pag y Bag de PIDNet-S, ofrecemos una opción más rápida: PIDNet-S-Simple, que se generaliza peor pero aún exhibe la mayor precisión entre los modelos con latencia inferior a 10 ms.

Tabla 6. Comparación de velocidad y precisión en el conjunto de datos de paisajes urbanos. Los modelos previamente entrenados utilizando otros conjuntos de datos divididos están marcados con †; la velocidad de inferencia de los modelos marcados con * se probó en nuestra plataforma. Los GFLOP de PIDNet se derivan en función de entradas de resolución completa.

Insertar descripción de la imagen aquí

Contexto PASCAL. La ruta Avg(17, 8) en PAPPM se eliminó porque el tamaño de la imagen en PASCAL Context [33] era demasiado pequeño. A diferencia de los otros dos conjuntos de datos, aquí se utiliza la inferencia invertida y de múltiples escalas para permitir una comparación justa con modelos anteriores. Aunque hay menos anotaciones en PASCAL Context en comparación con los dos conjuntos de datos anteriores, nuestro modelo aún logra un rendimiento competitivo en redes complejas existentes, como se muestra en la Tabla 7.

Tabla 7. Comparación de la precisión del conjunto de datos Pascal-Context (con y sin clases de fondo). D-Res-101 se refiere al modelo Dilated ResNet-101.

5. Conclusión

Este artículo propone una novedosa arquitectura de red de tres ramas para la segmentación semántica en tiempo real: PIDNet. PIDNet logra el mejor equilibrio entre tiempo de inferencia y precisión. Sin embargo, dado que PIDNet utiliza la predicción de límites para equilibrar la información detallada y contextual, la anotación precisa alrededor de los límites generalmente requiere mucho tiempo para lograr un mejor rendimiento.

Referencias

[1] Wangpeng An, Haoqian Wang, Qingyun Sun, Jun Xu, Qionghai Dai y Lei Zhang. Un enfoque de controlador pid para la optimización estocástica de redes profundas. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 8522–8531, 2018. 1
[2] Saeid Asgari Taghanaki, Kumar Abhishek, Joseph Paul Cohen, Julien Cohen-Adad y Ghassan Hamarneh. Segmentación semántica profunda de imágenes naturales y médicas: una revisión. Artificial Intelligence Review, 54(1):137–178, 2021. 1 [3] Helon Vicente Hultmann Ayala y Leandro dos Santos Coelho. Tuning de controlador pid basado en un algoritmo genético multiobjetivo aplicado a un manipulador robótico. Sistemas expertos con aplicaciones, 39(10):8968–8974, 2012.1
[4] Vijay Badrinarayanan, Alex Kendall y Roberto Cipolla. Segnet: una arquitectura de codificador-decodificador convolucional profunda para la segmentación de imágenes. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 39(12):2481–2495, 2017. 1, 2
[5] Gabriel J Brostow, Julien Fauqueur y Roberto Cipolla. Clases de objetos semánticos en vídeo: una base de datos real de alta definición. Cartas de reconocimiento de patrones, 30(2):88–97, 2009. 2, 6, 7
[6] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy y Alan L Yuille. Segmentación de imágenes semánticas con redes convolucionales profundas y crfs completamente conectados. preimpresión de arXiv arXiv:1412.7062, 2014. 1
[7] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy y Alan L Yuille. Deeplab: segmentación de imágenes semánticas con redes convolucionales profundas, convolución atroz y crfs completamente conectados. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 40(4):834–848, 2017. 2, 8
[8] Liang-Chieh Chen, George Papandreou, Florian Schroff y Hartwig Adam. Repensar la convolución atroz para la segmentación de imágenes semánticas. Preimpresión de arXiv arXiv:1706.05587, 2017. 2
[9] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff y Hartwig Adam. Codificador-decodificador con atroz convolución separable para segmentación semántica de imágenes. En Actas de la conferencia europea sobre visión por computadora (ECCV), páginas 801–818, 2018. 2
[10] Wuyang Chen, Xinyu Gong, Xianming Liu, Qian Zhang, Yuan Li y Zhangyang Wang. Fasterseg: Búsqueda de una segmentación semántica en tiempo real más rápida. Preimpresión de arXiv arXiv:1912.10917, 2019. 6
[11] Franc¸ois Chollet. Xception: aprendizaje profundo con convoluciones separables en profundidad. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 1251–1258, 2017. 2
[12] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth y Bernt Schiele. El conjunto de datos de paisajes urbanos para la comprensión semántica de la escena urbana. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 3213–3223, 2016. 1, 2, 6, 7
[13] Ruoxi Deng, Chunhua Shen, Shengjun Liu, Huibing Wang y Xinru Liu. Aprender a predecir límites nítidos. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), páginas 562–578, 2018. 4
[14] Henghui Ding, Xudong Jiang, Bing Shuai, Ai Qun Liu y Gang Wang. Función de contraste de contexto y agregación multiescala cerrada para la segmentación de escenas. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 2393–2402, 2018. 8
[15] Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Wei, Zhenhua Chai, Junfeng Luo y Xiaolin Wei. Repensar bisenet para la segmentación semántica en tiempo real. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 9716–9725, 2021. 2, 6, 8
[16] Di Feng, Christian Haase-Schutz, Lars Rosenbaum, Heinz ¨ Hertlein, Claudius Glaeser, Fabian Timm, Werner Wiesbeck y Klaus Dietmayer. Detección profunda de objetos multimodal y segmentación semántica para la conducción autónoma: conjuntos de datos, métodos y desafíos. IEEE Transactions on Intelligent Transportation Systems, 22(3):1341–1360, 2020. 1, 2
[17] Jun Fu, Jing Liu, Haijie Tian, ​​Yong Li, Yongjun Bao, Zhiwei Fang y Hanqing Lu. Red de atención dual para segmentación de escenas. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 3146–3154, 2019. 2
[18] Mostafa Gamal, Mennatullah Siam y Moemen AbdelRazek. Shuffleseg: Red de segmentación semántica en tiempo real. Preimpresión de arXiv arXiv:1803.03816, 2018. 2
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 770–778, 2016. 4
[20] Yuanduo Hong, Huihui Pan, Weichao Sun y Yisong Jia. Redes profundas de doble resolución para una segmentación semántica precisa y en tiempo real de escenas de carreteras. Preimpresión de arXiv arXiv:2101.06085, 2021. 2, 3, 4, 5, 6, 7, 8
[21] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto y Hartwig Adam. Mobilenets: Redes neuronales convolucionales eficientes para aplicaciones de visión móviles. Preimpresión de arXiv arXiv:1704.04861, 2017. 2
[22] Ping Hu, Fabian Caba, Oliver Wang, Zhe Lin, Stan Sclaroff y Federico Perazzi. Redes distribuidas temporalmente para una segmentación semántica de vídeo rápida. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 8818–8827, 2020. 7
[23] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei y Wenyu Liu. Ccnet: Atención cruzada para segmentación semántica. En Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora, páginas 603–612, 2019. 2
[24] A Jayachitra y R Vinodha. Enfoque de ajuste del controlador pid basado en algoritmo genético para un reactor de tanque agitado continuo. Avances en Inteligencia Artificial (16877470), 2014. 1
[25] A Khodabakhshian y R Hooshmand. Un nuevo diseño de controlador pid para el control automático de generación de sistemas hidroeléctricos. Revista internacional de energía eléctrica y sistemas de energía, 32(5):375–382, 2010. 1
[26] Saumya Kumaar, Ye Lyu, Francesco Nex y Michael Ying Yang. Gabinete: red de agregación de contexto eficiente para segmentación semántica de baja latencia. En 2021, Conferencia internacional IEEE sobre robótica y automatización (ICRA), páginas 13517–13524. IEEE, 2021. 8
[27] Hanchao Li, Pengfei Xiong, Haoqiang Fan y Jian Sun. Dfanet: agregación profunda de funciones para segmentación semántica en tiempo real. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 9522–9531, 2019. 2
[28] Xiangtai Li, Ansheng You, Zhen Zhu, Houlong Zhao, Maoke Yang, Kuiyuan Yang, Shaohua Tan y Yunhai Tong. Flujo semántico para un análisis de escenas rápido y preciso. En Conferencia europea sobre visión por computadora, páginas 775–793. Springer, 2020. 4, 8
[29] Xin Li, Yiming Zhou, Zheng Pan y Jiashi Feng. Poda de orden parcial: para obtener el mejor equilibrio entre velocidad y precisión en la búsqueda de arquitectura neuronal. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 9145–9153, 2019. 8
[30] Guosheng Lin, Anton Milan, Chunhua Shen e Ian Reid. Refinenet: redes de refinamiento de múltiples rutas para segmentación semántica de alta resolución. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 1925–1934, 2017. 8
[31] Jonathan Long, Evan Shelhamer y Trevor Darrell. Redes totalmente convolucionales para segmentación semántica. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 3431–3440, 2015. 1, 2
[32] Ruijun Ma, Shuyi Li, Bob Zhang y Zhengming Li. Hacia una eliminación de ruido de imágenes reales rápida y robusta con una red neuronal atenta y un controlador pid. IEEE Transactions on Multimedia, 2021. 1
[33] Roozbeh Mottaghi, Xianjie Chen, Xiaobai Liu, Nam-Gyu Cho, Seong-Whan Lee, Sanja Fidler, Raquel Urtasun y Alan Yuille. El papel del contexto para la detección de objetos y la segmentación semántica en la naturaleza. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 891–898, 2014. 2, 6, 8
[34] Yuval Nirkin, Lior Wolf y Tal Hassner. Hyperseg: hiperred de parches para segmentación semántica en tiempo real. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 4061–4070, 2021. 6, 7, 8
[35] Marin Orsic, Ivan Kreso, Petra Bevandic y Sinisa Segvic. En defensa de arquitecturas de imagenet previamente entrenadas para la segmentación semántica en tiempo real de imágenes de conducción en carreteras. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 12607–12616, 2019. 2, 3, 4, 6, 8 [36
] Adam Paszke, Abhishek Chaurasia, Sangpil Kim y Eugenio Culurciello. Enet: una arquitectura de red neuronal profunda para segmentación semántica en tiempo real. Preimpresión de arXiv arXiv:1606.02147, 2016. 2
[37] Juncai Peng, Yi Liu, Shiyu Tang, Yuying Hao, Lutao Chu, Guowei Chen, Zewu Wu, Zeyu Chen, Zhiliang Yu, Yuning Du y otros Pp-liteseg: un modelo superior de segmentación semántica en tiempo real. arXiv Preimpresión de arXiv
arXiv:1805.04554, 2018. 2, 3
[39] Rudra PK Poudel, Stephan Liwicki y Roberto Cipolla. Fast-scnn: Red de segmentación semántica rápida. Preimpresión de arXiv arXiv:1902.04502, 2019. 2, 3
[40] Olaf Ronneberger, Philipp Fischer y Thomas Brox. Unet: Redes convolucionales para segmentación de imágenes biomédicas. En Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora, páginas 234–241. Springer, 2015. 1, 2
[41] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Desafío de reconocimiento visual a gran escala de Imagenet. Revista internacional de visión por computadora, 115(3):211–252, 2015. 6
[42] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov y Liang-Chieh Chen. Mobilenetv2: residuos invertidos y cuellos de botella lineales. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 4510–4520, 2018. 2
[43] Abhinav Shrivastava, Abhinav Gupta y Ross Girshick. Entrenamiento de detectores de objetos basados ​​en regiones con minería de ejemplos en línea. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 761–769, 2016. 7
[44] Alexey A Shvets, Alexander Rakhlin, Alexandr A Kalinin y Vladimir I Iglovikov. Segmentación automática de instrumentos en cirugía asistida por robot mediante aprendizaje profundo. En 2018, 17.a Conferencia Internacional IEEE sobre Aplicaciones y Aprendizaje Automático (ICMLA), páginas 624–628. IEEE, 2018. 2
[45] Haiyang Si, Zhiqiang Zhang, Feifan Lv, Gang Yu y Feng Lu. Segmentación semántica en tiempo real mediante una red de fusión espacial múltiple. Preimpresión de arXiv arXiv:1911.07217, 2019. 6, 7, 8
[46] Towaki Takikawa, David Acuña, Varun Jampani y Sanja Fidler. Gated-scnn: CNN de forma cerrada para segmentación semántica. En Actas de la conferencia internacional IEEE/CVF sobre visión por computadora, páginas 5229–5238, 2019. 4
[47] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. Atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neuronal, 30, 2017. 2, 5
[48] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al. Aprendizaje profundo de representación de alta resolución para el reconocimiento visual. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 43(10):3349– 3364, 2020. 1, 2, 4, 8
[49] Xiaolong Wang, Ross Girshick, Abhinav Gupta y Kaiming He. Redes neuronales no locales. En Actas de la conferencia IEEE sobre computadora v
[50] Jiacong Xu y Shankar P Bhattacharyya. Una arquitectura de controlador pid inspiró una mejora del algoritmo pso. En Conferencia sobre el futuro de la información y la comunicación, páginas 587–603. Springer, 2022. 1
[51] Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen y Nong Sang. Bisenet v2: Red bilateral con agregación guiada para segmentación semántica en tiempo real. Revista internacional de visión por computadora, 129(11):3051–3068, 2021. 3, 4, 6, 7, 8
[52] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu y Nong Sang. Bisenet: Red de segmentación bilateral para segmentación semántica en tiempo real. En Actas de la conferencia europea sobre visión por computadora (ECCV), páginas 325–341, 2018. 2, 3, 6, 8
[53] Fisher Yu y Vladlen Koltun. Agregación de contexto multiescala mediante convoluciones dilatadas. Preimpresión de arXiv arXiv:1511.07122, 2015. 2
[54] Xiaohui Yuan, Jianfang Shi y Lichuan Gu. Una revisión de los métodos de aprendizaje profundo para la segmentación semántica de imágenes de teledetección. Sistemas expertos con aplicaciones, 169:114417, 2021. 1
[55] Yuhui Yuan, Xilin Chen y Jingdong Wang. Representaciones contextuales de objetos para segmentación semántica. En conferencia europea sobre visión por computadora, páginas 173–190. Springer, 2020. 2
[56] Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi y Amit Agrawal. Codificación de contexto para segmentación semántica. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 7151–7160, 2018. 8
[57] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin y Jian Sun. Shufflenet: una red neuronal convolucional extremadamente eficiente para dispositivos móviles. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 6848–6856, 2018. 2
[58] Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi y Jiaya Jia. Icnet para segmentación semántica en tiempo real en imágenes de alta resolución. En Actas de la conferencia europea sobre visión por computadora (ECCV), páginas 405 a 420, 2018. 2
[59] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang y Jiaya Jia. Pyramid scene parsing network. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 2881–2890, 2017. 1, 2, 5, 8
[60] Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip HS Torr y otros Repensar la segmentación semántica desde una perspectiva de secuencia a secuencia con transformadores En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 6881–6890, 2021.1

Supongo que te gusta

Origin blog.csdn.net/wagnbo/article/details/131103239
Recomendado
Clasificación