Transformador ~ 52

Red de eliminación de neblina de imágenes de Transformer más rápida y flexible

Este artículo comparte el documento ICCV 2023 MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor Formula for Image Dehazingy presenta la red de eliminación de neblina de imágenes Transformer, más rápida y flexible.

  • Enlace del artículo: https://arxiv.org/abs/2308.14036

  • Enlace del código: https://github.com/FVL2020/ICCV-2023-MB-TaylorFormer

Abstracto

Este artículo presenta una nueva red de transformadores lineales de múltiples ramas llamada MB-TaylorFormer, que puede realizar tareas de eliminación de neblina de imágenes de manera efectiva y eficiente.

MB-TaylorFormer tiene las siguientes contribuciones:

  • La red lineal Transformer basada en la expansión de Taylor modela la relación de larga distancia entre píxeles. Se introduce el módulo MSAR para corregir el error de la expansión de Taylor de softmax-attention;

  • Extraiga tokens con campos receptivos de múltiples escalas, información semántica de múltiples niveles y formas de campos receptivos más flexibles a través de estructuras de múltiples ramas y múltiples escalas;

  • Mejor rendimiento, menos computación y redes más ligeras.

Realizamos experimentos en múltiples conjuntos de datos de eliminación de neblina (ITS, OTS, O-HAZE, Dense-Haze). Los resultados experimentales muestran que MB-TaylorFormer supera a otras soluciones SOTA con parámetros y complejidad computacional extremadamente bajos. Además, los resultados experimentales de la eliminación de lluvia y nieve muestran que MB-TaylorFormer es igualmente eficaz.

Método

Arquitectura de red La figura anterior muestra los tres módulos principales de MB-TaylorFormer propuestos en este artículo: incrustación de parches multiescala (Figura 2.b), autoatención expandida de Taylor (Figura 2.c) y módulo MSAR (Figura 2.d). ).

Incrustación de parches multiescala

En comparación con el campo de la PNL, los tokens visuales tienen una escala muy flexible. El trabajo existente adopta convoluciones con tamaños de kernel fijos en incrustaciones de parches, lo que puede dar como resultado una escala única de tokens visuales. Para resolver este problema, diseñamos una nueva incrustación de parches multiescala con tres características:

  1. campo receptivo multiescala

  2. información semántica multinivel

  3. Formas de campo receptivo flexibles.

Específicamente, al diseñar múltiples convoluciones deformables paralelas (DCN) con núcleos de convolución de diferentes escalas, permitimos que Patch Embedding genere marcadores visuales gruesos y finos, además de tener capacidades de expresión flexibles, como se muestra en la siguiente figura. Inspirados por apilar múltiples capas de convoluciones de 3 * 3 para obtener un campo receptivo más grande, apilamos varios DCN con pequeños núcleos de convolución para obtener puntos de muestreo más ricos. Esto no solo aumenta la profundidad de la red para proporcionar información semántica de múltiples niveles, sino que también ayuda a reducir los parámetros y la carga computacional. Además, también hemos agregado dos pequeños cambios a DCN:

  • Al truncar el desplazamiento, el Token se centra más en el área local.

  • De manera similar a la estrategia de convolución separable en profundidad, proponemos una convolución deformable y separable en profundidad (DSDCN), que descompone cada parte de la DCN en convolución en profundidad y convolución puntual.

Taylor expandió la autoatención multicabezal

Para la expresión de autoatención del Transformer original, es la siguiente: T-MSA contiene las siguientes tres ventajas:

  • No limitado a la reducción del campo receptivo causada por ventanas divididas

  • Realizar autoatención global de píxeles en lugar de autoatención entre canales

  • En comparación con el método general de función del núcleo, está numéricamente más cerca de la atención de Softmax.

Refinamiento de la atención a múltiples escalas

Debido a los errores inevitables causados ​​por descuidar el resto de la expansión de Taylor, la estimación de los experimentos

Resultados principales

La tabla anterior muestra la comparativa entre MB-TaylorFormer y otros modelos SOTA, a partir de ella podemos encontrar:

  • En los conjuntos de datos sintéticos (SOTS-Indoor, SOTS-Outdoor), MB-TaylroFormer-B logró indicadores de 40,71 dB y 37,42 dB respectivamente, y MB-TaylroFormer-L logró indicadores de 42,64 dB y 38,09 dB respectivamente, lo que es mejor que el anterior. SGID-PFF 38,52dB y 30,20dB

  • En los conjuntos de datos reales (O-HAZE y Dense-Haze), MB-TaylroFormer-L y MB-TaylroFormer-B superaron a la mejor solución anterior, Dehamer, en 0,20 dB y 0,04 dB respectivamente.

  • En comparación con otras soluciones, MB-TaylorFormer-B tiene menos volumen de cálculo y parámetros e indicadores más altos.

La figura anterior muestra una comparación de los efectos visuales del conjunto de datos sintéticos y los datos reales. Se puede ver que MB-TaylorFormer no solo restaura mejor los detalles en las sombras, sino que también evita efectivamente los artefactos y las tonalidades de color.

Estudios de ablación

Estudio de incrustación de parches a múltiples escalas y estructura de múltiples ramas.

La Tabla 2 estudia el impacto de diferentes incrustaciones de parches y diferentes números de sucursales. Tomando una sola sucursal como línea base, podemos encontrar: whaosoft  aiot  http://143ai.com  

  • Con parámetros similares y cálculos de punto flotante, las ramas múltiples son mejores que las de una sola rama.

  • El campo receptivo de escala múltiple (Conv-P dilatado) aporta una mejora de +0,35 dB en comparación con el campo receptivo de escala única (Conv-P)

  • La información semántica multinivel (Conv-S) aporta una mejora de +0,27 dB en comparación con la ausencia de información semántica multinivel (Conv-P dilatada)

  • La forma del campo receptivo más flexible (DSDCN-S) aporta una mejora de +1,67 dB en comparación con la forma del campo receptivo fijo (Conv-S)

Eficacia del módulo de refinamiento de la atención a múltiples escalas

La Tabla 3 muestra que el diseño del módulo MSAR puede mejorar efectivamente el rendimiento de TaylorFormer con un diseño extremadamente liviano.

Comparación con otros módulos lineales de autoatención

La Tabla 4 demuestra la efectividad de T-MSA en tareas de desempañado comparando T-MSA con varios transformadores lineales.

Análisis de errores de aproximación.

Para verificar el impacto del error de aproximación, realizamos la expansión de Taylor de softmax-attention dentro de la ventana Swin. Descubrimos que la expansión de orden superior de softmax-attention puede lograr un mejor rendimiento, lo que puede deberse a mejores valores numéricos. Los mapas de atención tienen rangos más altos.

Nota: Dado que la ventana de Swin es 8, no existe la propiedad N>>d, por lo que la cantidad calculada de MAC en el experimento de la Tabla 5 no se deriva de la ley asociativa de la multiplicación de matrices.

Introducción al laboratorio

El Laboratorio Frontier Vision (página de inicio de FVL: https://fvl2020.github.io/fvl.github.com/) de la Escuela de Ingeniería Inteligente de la Universidad Sun Yat-sen es construido y mantenido por el profesor asociado Jin Zhi de la escuela. Actualmente, el laboratorio se centra en la mejora de la calidad de imagen/vídeo, la investigación en áreas como la codificación y decodificación de vídeo, la reconstrucción 3D y la monitorización de signos vitales humanos sin contacto. Diseñado para optimizar el ciclo completo, desde la adquisición y transmisión de imágenes de vídeo hasta la mejora y el servicio de aplicaciones de back-end. El objetivo es desarrollar conceptos comunes y métodos ligeros.

 

Supongo que te gusta

Origin blog.csdn.net/qq_29788741/article/details/132958104
Recomendado
Clasificación