[Fusión de imágenes] Descripción general de los algoritmos de fusión (actualización continua)

按时间顺序,综述近5年的融合算法。重点分析了最近两年的work,欢迎留言探讨


prefacio


提示:以下是本篇文章正文内容,下面案例可供参考

1. Fusión de imágenes SSR-Laplacian (2017)

论文:R. Wu, D. Yu, J. Liu, H. Wu, W. Chen y Q. Gu, "Un método de fusión mejorado para imágenes visibles de bajo nivel de luz e infrarrojos", 2017 14.ª Conferencia informática internacional sobre tecnología e información de medios activos Wavelet Procesamiento (ICCWAMTIP), 2017, pp. 147-151.

Este artículo presenta un método para fusionar imágenes visibles e infrarrojas con poca luz. Este artículo agrega principalmente los pasos de preprocesamiento de imágenes, y el proceso posterior es la combinación y extensión de algunos métodos de procesamiento tradicionales. El algoritmo SSR (Single Scale Retinex), un algoritmo desarrollado en base a las características fisiológicas del ojo humano de Retinex, se utiliza para mejorar el contraste de las imágenes de luz visible.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

2, FusionGAN (2019)

Documento: Jiayi Ma, Wei Yu, Pengwei Liang, Chang Li y Junjun Jiang. FusionGAN: A generative adversarial network for lower and visible image fusion. Information Fusion 48, C (agosto de 2019), 11–26, 2019.

Este artículo propone FusionGAN, que aplica GAN a la tarea de fusión de imágenes. La imagen infrarroja Ir y la imagen de luz visible Iv están conectadas por canales y entradas al generador, y la salida es la imagen de fusión If. Teniendo en cuenta que los detalles de textura en la imagen visible no se extraen por completo, la imagen fusionada If y la imagen visible Iv se introducen en el discriminador, de modo que If tiene más detalles de textura. El generador tiene como objetivo producir imágenes fusionadas con intensidades infrarrojas significativas y gradientes visibles adicionales, y el discriminador tiene como objetivo obligar a las imágenes fusionadas a poseer más detalles de las imágenes visibles.

inserte la descripción de la imagen aquí
Generador de función de pérdida
:
inserte la descripción de la imagen aquí

Discriminado:
inserte la descripción de la imagen aquí

3, Red MB (2020)

Zhou, Kailai et al. "Mejora de la detección de peatones multiespectral al abordar los problemas de desequilibrio de modalidad". Congreso Europeo de Visión por Computador (2020).

El problema del desequilibrio de la modalidad se divide principalmente en dos aspectos: el desequilibrio de la modalidad de iluminación (variación de la luz) y el desequilibrio de la modalidad de las características (registro erróneo de las características infrarrojas y visibles, y métodos de fusión inapropiados). Este documento diseña un módulo de Fusión Consciente de Modalidad Diferencial (DMAF, Fusión Consciente de Modalidad Diferencial) para hacer que las dos modalidades se complementen entre sí. El módulo de alineación de funciones consciente de la iluminación (IAFA, Illumination Aware Feature Alignment Module) selecciona funciones complementarias en función de las condiciones de iluminación y alinea de forma adaptativa dos funciones de modalidad.

inserte la descripción de la imagen aquí

Cada modalidad en el módulo DMAF contiene una parte común y una parte de diferencia.

inserte la descripción de la imagen aquí
Primero reste directamente las dos características modales para obtener las características de diferencia, luego realice la agrupación promedio global en las características de diferencia, luego realice la activación de tanh y luego realice la ponderación a nivel de canal en las características originales y agregue las características ponderadas a otra característica modal.

inserte la descripción de la imagen aquí

El módulo IAFA utiliza una pequeña red que puede predecir las condiciones de iluminación a partir de imágenes de luz visible, y su pérdida se define de la siguiente manera:

inserte la descripción de la imagen aquí
Dado que las cámaras de luz visible e infrarroja no se capturan todas al mismo tiempo, esto puede provocar una desalineación de las funciones. Por lo tanto, se propone un módulo de Alineación de modalidad (MA, Modality Alignment) para predecir un desplazamiento de características (dx, dy) para cada píxel (x, y) de cada modalidad, ya que el desplazamiento de características es un número de punto flotante, por lo que la interpolación bilineal es sirve para ajustar (x+dx, y+dy) con los valores de los puntos vecinos.
El módulo IAFA primero une las características RGB e infrarrojas reponderadas y genera una posición de anclaje aproximada en la etapa de anclaje propuesta. El desplazamiento de regresión t0 previsto en la etapa IAFC se utiliza para generar anclajes deformables como referencia básica para la predicción de la posición. Luego, los anclajes deformables y la puntuación de confianza s0 se ajustan aún más a través de la etapa IAFC. Las puntuaciones de confianza para las predicciones de mapas de características RGB e IR se vuelven a ponderar con los valores de iluminación. La puntuación de confianza final y el valor de compensación de la regresión son los siguientes:
inserte la descripción de la imagen aquí
La función de pérdida de clasificación utiliza la pérdida focal para resolver el problema del desequilibrio de la muestra.
inserte la descripción de la imagen aquí

4, DID Fusible (2020)

Zixiang Zhao, Shuang Xu, Chunxia Zhang, Junmin Liu, Jiangshe Zhang y Pengfei Li, DIDFuse: Descomposición profunda de imágenes para la fusión de imágenes infrarrojas y visibles IJCAI 2020: 970-976.

Este modelo utiliza efectivamente información previa, es decir, la información base representa información de fondo a gran escala, y la información detallada es información con diferencias mutuas obvias, es decir, la información base infrarroja y visible son lo más cercanas posible, y la información detallada del dos es lo más diferente posible. Después del entrenamiento, el modelo obtiene el codificador y decodificador entrenado y luego entra en la fase de prueba. En el proceso de prueba, agregue una capa de fusión, es decir, una capa de fusión, para realizar la fusión de suma y fusión, y luego empalme e introdúzcalo en el decodificador para realizar la reconstrucción de la imagen. Hay tres estrategias para la selección de la estrategia de fusión: adición directa, adición de peso dado y norma L1 (la norma L1 del mapa de características se considera como su medida de actividad, y luego la norma L1 de diferentes mapas de características se calcula para dar un conjunto de diferentes pesos de fusión).

función de pérdida

inserte la descripción de la imagen aquí

5, DDcGAN (2020)

J. Ma, H. Xu, J. Jiang, X. Mei y X. -P. Zhang, "DDcGAN: una red antagónica generativa condicional de doble discriminador para la fusión de imágenes de resolución múltiple", en IEEE Transactions on Image Processing, vol. 29, págs. 4980-4995, 2020.

En este artículo, se diseña un discriminador dual sobre la base de FusionGAN. Para fusionar imágenes de diferentes resoluciones, los autores asumen que la resolución de la imagen visible es 4×4 veces la de la imagen infrarroja, el discriminador Dv tiene como objetivo distinguir la imagen generada de la imagen visible, y el discriminador Di tiene como objetivo distinguir la imagen fusionada original de una imagen infrarroja de baja resolución y reducción de resolución (agrupación promedio) . Para mantener un equilibrio entre el generador y el discriminador, la capa de entrada de cada discriminador es un solo canal que contiene datos de muestra en lugar de dos canales que contienen datos de muestra y la imagen de origen correspondiente como información de condición.

inserte la descripción de la imagen aquí

6 、 GAN (2020)

J. Ma et al., "Fusión de imágenes visibles e infrarrojas a través de detalles que preservan el aprendizaje adversarial", Information Fusion, vol. 54, págs. 85–98, febrero de 2020.

El modelo de este documento se utiliza para mejorar el problema de pérdida de detalles causado por el modelo GAN anterior y se agrega un mecanismo de protección para los bordes. El generador del modelo genera una imagen de fusión y luego el resultado de la fusión se envía al discriminador junto con la imagen de la fuente de luz visible para juzgar si el resultado de la fusión proviene de la imagen de luz visible.

inserte la descripción de la imagen aquí
Función de pérdida:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

7, fusible de nido (2020)

H. Li, X.-J. Wu y T. Durrani, "NestFuse: una arquitectura de fusión de imágenes infrarrojas y visibles basada en la conexión de Nest y los modelos de atención espacial/canal", en IEEE Transactions on Instrumentation and Measurement, vol. 69, núm. 12, págs. 9645-9656, diciembre de 2020.

Este artículo es un modelo de fusión infrarrojo-visible basado en la conexión del nido y la atención espacial/canal, que puede retener información importante en múltiples escalas. El modelo se divide en tres partes: codificador, estrategia de fusión y decodificador. En la estrategia de fusión, se utilizan un modelo de atención espacial y un modelo de atención de canal para describir la importancia de las características profundas en cada ubicación espacial y canal, respectivamente. Primero, la imagen de entrada se envía al codificador para extraer características multiescala, y la estrategia de fusión fusiona estas características en cada escala y, finalmente, la imagen se reconstruye a través del decodificador en función de la conexión anidada.

inserte la descripción de la imagen aquí

8, AFUsión (2021)

Zixiang Zhao, Shuang Xu, Jiangshe Zhang, Chengyang Liang, Chunxia Zhang y Junmin Liu, "Fusión de imágenes visibles e infrarrojas eficientes y basadas en modelos a través del desenrollado de algoritmos", en IEEE Transactions on Circuits and Systems for Video Technology, 2021.

En este artículo, la red se construye mediante la expansión de algoritmos, lo que aumenta la interpretabilidad de la red. En primer lugar, se entrena previamente un codificador automático para la extracción de características y la reconstrucción de imágenes. Luego, se utilizan algunas estrategias de fusión diseñadas a mano (promedio ponderado basado en píxeles) para integrar las características de profundidad extraídas de diferentes imágenes de origen para lograr la fusión de imágenes. Durante el entrenamiento, la luz visible e infrarroja se ingresan alternativamente a la red; durante las pruebas, la luz visible e infrarroja se ingresan en pares. Las características B 0 y D 0 en la red se obtienen mediante filtros borrosos y laplacianos respectivamente.

Diseño de módulos BCL y DCL, X representa la imagen de entrada, B y D representan la característica base y la característica de detalle respectivamente, y
g B j representa el filtrado de paso alto, y g D j representa el filtrado de paso bajo.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
Función de pérdida:

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
SSIM mide la similitud de dos imágenes, y esta pérdida hace que la imagen reconstruida se acerque a la imagen de origen en términos de brillo, estructura y contraste.
inserte la descripción de la imagen aquí

9, AtenciónFGAN

J. Li, H. Huo, C. Li, R. Wang y Q. Feng, "AttentionFGAN: Fusión de imágenes visibles e infrarrojas mediante redes antagónicas generativas basadas en la atención", en IEEE Transactions on Multimedia, vol. 23, págs. 1383-1396, 2021.

En este documento, el mecanismo de atención multiescala se agrega a GAN para la fusión de imágenes de luz infrarroja-visible. El mecanismo de atención de múltiples escalas tiene como objetivo capturar información espacial completa, ayudando al generador a enfocarse en la información del objetivo de primer plano de las imágenes infrarrojas y los detalles de fondo de las imágenes de luz visible, mientras obliga al discriminador a prestar más atención al área de atención en lugar del toda la imagen de entrada. En la parte del generador, dos módulos de atención multiescala primero obtienen los mapas de atención de las imágenes de luz infrarroja y visible respectivamente, y luego envían los dos mapas de atención y las imágenes de origen a la red de fusión después de empalmar la dimensión del canal. Los dos discriminadores se utilizan para distinguir la imagen de fusión de la imagen de luz visible/infrarroja respectivamente.La estructura es exactamente la misma, pero los parámetros no se comparten.
inserte la descripción de la imagen aquí
función de pérdida

Constructor:

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Discriminador: los dos primeros elementos representan la estimación de la distancia de Wasserstein y el último elemento es la penalización de gradiente para la regularización de la red.
inserte la descripción de la imagen aquí

10, GANMCC

J. Ma, H. Zhang, Z. Shao, P. Liang y H. Xu, "GANMcC: una red antagónica generativa con restricciones de clasificación múltiple para la fusión de imágenes visibles e infrarrojas", en IEEE Transactions on Instrumentation and Measurement, vol. 70, págs. 1-14, 2021.

La información detallada de las imágenes infrarrojas no es necesariamente peor que la de la luz visible, y el contraste de las imágenes RGB también puede ser mejor que el de las imágenes infrarrojas. La imagen fusionada tiene un contraste significativo y ricos detalles de textura. La clave es garantizar que la información de contraste y gradiente de la imagen de origen esté equilibrada, esencialmente estimando la distribución de dos dominios diferentes al mismo tiempo. GAN puede estimar mejor la distribución de probabilidad del objetivo en una situación no supervisada, y GAN de múltiples categorías puede adaptarse a múltiples características de distribución al mismo tiempo para resolver esta fusión de información desequilibrada. Cuando la imagen visible está sobreexpuesta, la información correspondiente de la imagen infrarroja puede compensar, lo que permite que nuestro método elimine los reflejos mientras mantiene un contraste significativo.
Red de arquitectura

inserte la descripción de la imagen aquí
Para el generador, la entrada es también una entrada de mezcla de las dos modalidades, y el generador obtiene la imagen fusionada. Para el discriminador, la imagen de entrada (infrarrojos/luz visible/imagen de fusión es opcional) se clasifica para obtener la categoría de la imagen de entrada, y la salida es un vector que contiene dos valores de probabilidad. Para la imagen fusionada, bajo la restricción de clasificación múltiple, el generador espera que ambas probabilidades sean altas , es decir, el discriminador piensa que es tanto una imagen infrarroja como una imagen visible, y el discriminador espera que estas dos probabilidades sean pequeñas al mismo tiempo. mismo tiempo, es decir, el discriminador juzga la fusión. La imagen no es ni infrarroja ni visible. Durante este proceso, se restringen ambas probabilidades para garantizar que la imagen fusionada tenga el mismo grado de verdadero/falso en ambas clases. Después del aprendizaje contradictorio continuo, el generador puede ajustar simultáneamente la distribución de probabilidad de las imágenes infrarrojas y las imágenes visibles , lo que da como resultado resultados con un contraste significativo y detalles ricos en texturas.
función de pérdida

Generador: determina el grado de retención de cada tipo de información ajustando el tamaño del peso β, y d se establece en 1.
inserte la descripción de la imagen aquí

Discriminador: c se establece en 0.

inserte la descripción de la imagen aquí

11,

12,

13,

14, PIA Fusión (2022)

Linfeng Tang, Jiteng Yuan, Hao Zhang, Xingyu Jiang y Jiayi Ma. "PIAFusion: una red progresiva de fusión de imágenes visibles e infrarrojas basada en iluminación consciente", Information Fusion, 83-84, pp. 79-92, 2022

Teniendo en cuenta el problema de la iluminación desequilibrada y las características insuficientes de las imágenes fusionadas, este artículo propone una red de fusión progresiva de imágenes (PIAFusion) basada en la percepción de la iluminación, que mantiene de forma adaptativa la distribución de intensidad de los objetos salientes y conserva la información de textura en el fondo. Específicamente, este documento diseña una subred consciente de la iluminación para estimar la distribución de iluminación y calcular la probabilidad de iluminación. Además, la probabilidad de iluminación se usa para construir la pérdida de percepción de iluminación para guiar el entrenamiento de la red de fusión, y el módulo de fusión de percepción diferencial intermodal se usa para fusionar la información común y la información complementaria de las características infrarrojas y visibles. Además, este documento publicó un gran conjunto de datos de referencia (MSRS, Multi-Spectral Road Scenarios) para la fusión de imágenes infrarrojas y visibles.

inserte la descripción de la imagen aquí
La subred de percepción de la luz utiliza la función de pérdida de entropía cruzada, y la función de pérdida de la red troncal es
inserte la descripción de la imagen aquíinserte la descripción de la imagen aquí

15,SeAFusion(2022)

Tang, Linfeng, Jiteng Yuan y Jiayi Ma. "Fusión de imágenes en el bucle de tareas de visión de alto nivel: una red de fusión de imágenes visibles e infrarrojas en tiempo real con conciencia semántica". Información Fusión 82 (2022): 28-42.

El documento propone un marco de fusión de imágenes consciente de la semántica que utiliza tareas de visión de alto nivel para impulsar la fusión de imágenes. Al mismo tiempo, teniendo en cuenta el requisito de rendimiento en tiempo real, se diseña una red ligera en términos de diseño de red. Y para mejorar la descripción de la red de los detalles de grano fino, se diseñó un bloque denso residual de gradiente (GRDB). Finalmente, considerando que los indicadores de evaluación existentes solo utilizan EN, MI, SF y otros indicadores estadísticos para medir la calidad de la fusión de imágenes. Los autores también proponen una evaluación basada en tareas, que mide la calidad de los resultados de fusión por su desempeño en tareas de visión de alto nivel.

inserte la descripción de la imagen aquí
La imagen de origen pasa a través de la red de fusión para generar una imagen de fusión, y la imagen de la red de fusión pasa a través de una red de segmentación para obtener el resultado de la segmentación. El resultado de la segmentación y las etiquetas construyen una pérdida semántica y construyen una pérdida de contenido antes de fusionar la imagen y la imagen de origen. La pérdida semántica solo se usa para restringir la red de segmentación, y la pérdida de contenido y la pérdida semántica limitan conjuntamente la optimización de la fusión. red. De esta forma, la pérdida semántica puede devolver la información semántica requerida para tareas de visión avanzada (segmentación) a la red de fusión, para que la red de fusión pueda retener efectivamente la información semántica en la imagen de origen.
inserte la descripción de la imagen aquí

Para la red de fusión, SeAFusion utiliza el marco de extracción de características de doble rama y la fusión Concat para reconstruir la imagen, mientras que el uso de las características extraídas por el operador de gradiente en GRDB como conexión residual puede fortalecer la extracción de características detalladas de la red.

Dado que no existe una verdad básica para la fusión de imágenes, es imposible usar los resultados de la fusión para entrenar previamente un modelo de segmentación para guiar el entrenamiento de la red de fusión. Por lo tanto, el autor entrena alternativamente la red de fusión y la red de segmentación para mantener el equilibrio. entre la fusión de imágenes y la segmentación semántica Visualice el desempeño de las tareas sin comprometer el desempeño de la red de fusión.

Comparación de resultados:
inserte la descripción de la imagen aquí

16, Swin Fusion (2022)

J. Ma, L. Tang, F. Fan, J. Huang, X. Mei y Y. Ma, "SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer", en IEEE/CAA Journal of Automatica Sínica, vol. 9, núm. 7, págs. 1200-1217, julio de 2022.

Por un lado, este artículo diseña un módulo multidominio guiado por la atención para lograr una integración suficiente de información complementaria e interacciones globales. El método consta de una unidad de fusión intradominio basada en la atención propia y una unidad de fusión interdominio basada en la atención cruzada , que extraen e integran dependencias largas dentro del mismo dominio y entre dominios. A través del modelado de dependencia de largo alcance, la red puede realizar completamente la extracción de información específica del dominio y la integración de información complementaria entre dominios, y mantener la fuerza aparente adecuada desde una perspectiva global. Se introduce un mecanismo de ventana desplazada en autoatención y atención cruzada, lo que permite que el modelo reciba imágenes de tamaño arbitrario. Por otro lado, tanto la fusión de imágenes multimodal como la fusión de imágenes de fotografía digital se generalizan al diseño de estructura, textura y preservación de la fuerza. Se define una forma de función de pérdida unificada para restringir todos los problemas de fusión de imágenes. El modelo SwinFusion funciona bien tanto en tareas de fusión de imágenes multimodal como de fusión de imágenes de fotografía digital.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
El modelo SwinFusion se puede dividir en tres partes: extracción de características, fusión entre dominios guiada por la atención y reconstrucción.

17, DIV Fusion (2023)

Linfeng Tang, Xinyu Xiang, Hao Zhang, Meiqi Gong y Jiayi Ma. "DIVFusion: fusión de imágenes visibles e infrarrojas sin oscuridad", Information Fusion, 91, págs. 477-493, 2023

(1) La innovación del papel:
los métodos actuales de fusión de imágenes están diseñados para imágenes de luz visible e infrarroja bajo iluminación normal. En escenas nocturnas, los métodos existentes sufren una degradación severa de las imágenes de luz visible, lo que da como resultado detalles de textura débiles y una percepción visual deficiente, lo que afecta las aplicaciones visuales posteriores. Tratar la mejora de imágenes y la fusión de imágenes como tareas independientes a menudo conduce a problemas de incompatibilidad, lo que da como resultado resultados de fusión de imágenes deficientes. En este documento, la tecnología de mejora de imágenes con poca luz y la tecnología de fusión de imágenes se combinan para iluminar razonablemente la oscuridad, promover la agregación de información complementaria y obtener una imagen de fusión con buena percepción visual.
(2) Arquitectura general:
inserte la descripción de la imagen aquí
en primer lugar, se diseña una red de desacoplamiento de iluminación de escena (SIDNet, red desenredada de iluminación de escena) para eliminar la degradación de iluminación en imágenes de luz visible nocturnas al tiempo que conserva las características de información de la imagen de origen. Para fusionar información complementaria y mejorar el contraste y los detalles de textura de las características de fusión, se diseña una red de fusión de mejora de contraste de textura (TCEFNet, red de fusión de mejora de contraste de textura). El método propuesto es capaz de generar imágenes fusionadas con colores realistas y contraste significativo de manera integral.
(3) La función de pérdida
se divide principalmente en dos etapas de entrenamiento
inserte la descripción de la imagen aquí
y una etapa : SIDNet se utiliza para la reconstrucción autosupervisada de la imagen original, que consta de un codificador, un bloque de atención y un decodificador. El decodificador solo obliga a SIDNet a generar mejores funciones durante el entrenamiento, por lo que al usar el modelo para fusionar imágenes, no es necesario generar imágenes reconstruidas. Las funciones de iluminación degeneradas se eliminan y la suma se utiliza como entrada para la siguiente etapa.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Donde, L per es para usar la imagen mejorada por ecualización de histograma como comparación, de manera que se pueda generar una imagen de luz visible mejorada.
La segunda etapa: arreglar SIDNet, entrenar TCEFNet.
Además de la pérdida de intensidad y pérdida de textura, la pérdida de consistencia del color también está diseñada para aliviar la distorsión del color causada por la mejora y la fusión.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

18, CDDFusible (CVPR2023)

Descomposición de funciones de doble rama impulsada por correlación para fusión de imágenes multimodal
Descomposición de funciones de doble rama impulsada por correlación en fusión de imágenes multimodal

19,


Resumir

提示:这里对文章进行总结:

Por ejemplo: lo anterior es de lo que hablaremos hoy. Este artículo solo presenta brevemente el uso de pandas, y pandas proporciona una gran cantidad de funciones y métodos que nos permiten procesar datos de manera rápida y sencilla.

Supongo que te gusta

Origin blog.csdn.net/qq_45752541/article/details/132309337
Recomendado
Clasificación