Serie Plug and Play | PromptIR: MBZUAI propone una red de restauración de imágenes Todopoderosa basada en Prompt

Título: PromptIR: Indicaciones para la restauración de imágenes ciegas todo en uno
PDF: arxiv.org/pdf/2306.13…
Código: github.com/va1shn9v/pr…

guía

La restauración de imágenes es el proceso de recuperación de imágenes claras y de alta calidad de sus versiones dañadas. Los métodos basados ​​en el aprendizaje profundo aumentan significativamente el rendimiento de la restauración de imágenes; sin embargo, tienen una capacidad de generalización limitada sobre diferentes tipos y niveles de degradación. Esto limita su utilidad en aplicaciones prácticas, ya que los modelos necesitan ser entrenados individualmente para cada degradación específica y conocer el tipo de degradación de la imagen de entrada para poder aplicar el modelo correspondiente. Este documento presenta un método de aprendizaje basado en avisos, llamado PromptIR, para la restauración omnipotente de imágenes que puede recuperar de manera eficiente imágenes de varios tipos y niveles de degradación. Específicamente, nuestro método utiliza sugerencias para codificar información específica de degradación y guía dinámicamente la red de restauración. Esto permite que nuestro método se generalice a diferentes tipos y niveles de degradación y logra resultados de última generación en eliminación de ruido de imagen, eliminación de lluvia y eliminación de neblina. En general, PromptIR proporciona un módulo de complemento general y eficiente que se puede usar para restaurar imágenes dañadas de varios tipos y niveles con solo algunas sugerencias ligeras, sin conocimiento previo de la información de daño presente en la imagen.

introducción

Durante la adquisición de imágenes, a menudo ocurren varios fenómenos de degradación como ruido, desenfoque, neblina, lluvia, etc., que generalmente son causados ​​​​por las limitaciones físicas de la cámara o condiciones ambientales inadecuadas. Los métodos basados ​​en redes neuronales profundas tienen diferentes enfoques para resolver el problema de restauración de imágenes. Algunos métodos introducen conocimiento explícito específico de la tarea en la red para manejar las tareas de restauración correspondientes, como eliminación de ruido, desenfoque y eliminación de neblina. Sin embargo, estos métodos carecen de generalización más allá de tipos y grados de degradación específicos. Por lo tanto, es urgente desarrollar un método todo en uno que pueda restaurar de manera efectiva varios tipos y grados de imágenes degradadas.

Un enfoque reciente, AirNet, aborda la tarea de restauración todo en uno empleando un paradigma de aprendizaje contrastivo. Esto implica entrenar un codificador adicional para distinguir entre varios tipos de degradación de imagen. Aunque AirNet logra resultados de última generación, tiene dificultades para modelar representaciones completamente desacopladas de diferentes tipos de contaminación. Además, el uso de un codificador adicional para el aprendizaje contrastivo da como resultado una mayor carga de capacitación, ya que se requiere un enfoque de capacitación en dos etapas.

::: bloque-1Figura 1.

PromptIR propone un módulo de sugerencias plug-and-play que predice implícitamente sugerencias relacionadas con las condiciones de degradación para guiar el proceso de restauración de imágenes de entrada con degradaciones desconocidas. La orientación de las señales se inyecta en múltiples etapas de decodificación de la red con una pequeña cantidad de parámetros que se pueden aprender. Esto permite aprender un modelo unificado multipropósito que puede funcionar bien en múltiples tareas de restauración de imágenes, como eliminación de lluvia, eliminación de neblina y reducción de ruido. :::

Para superar estos desafíos, este documento propone un enfoque basado en el aprendizaje de sugerencias para realizar la restauración de imágenes todo en uno. El método utiliza sugerencias (un conjunto de parámetros ajustables) que se utilizan para codificar información distintiva importante sobre varios tipos de degradación de la imagen (que se muestra en la Figura 2 a continuación). Al interactuar señales con las representaciones de características de la red de restauración principal, mejoramos dinámicamente las representaciones para obtener una adaptación con conocimiento específico de degradación, lo que permite que la red restaure imágenes de manera eficiente ajustando dinámicamente su comportamiento.

::: bloque-1Figura 2.

La figura muestra los gráficos tSNE de las incrustaciones degeneradas utilizadas en PromptIR y AirNet de última generación. Diferentes colores indican diferentes tipos de degradación. Las incrustaciones de cada tarea se agrupan mejor, lo que muestra la efectividad del etiquetado de señales para aprender un contexto degradado discriminativo, lo que facilita el proceso de restauración. :::

Los aspectos más destacados de este artículo incluyen:

  • En este documento, proponemos PromptIR, un marco de restauración todo en uno basado en sugerencias, que solo se basa en la imagen de entrada para recuperar una imagen limpia sin ningún conocimiento previo sobre la degradación presente en la imagen.
  • Este documento sugiere que el bloque sea un módulo complementario que se pueda integrar fácilmente en cualquier red de recuperación existente. Consiste en un Módulo de generación de avisos (PGM) y un Módulo de interacción de avisos (PIM). El objetivo del bloque de sugerencias es generar sugerencias condicionadas por la entrada (a través de PGM) que tienen información contextual útil para guiar a la red de restauración (a través de PIM) para eliminar de manera eficiente las corrupciones en la imagen de entrada.
  • Este documento demuestra experimentalmente el comportamiento de adaptación dinámica de PromptIR, logrando un rendimiento de última generación en varias tareas de restauración de imágenes, incluida la eliminación de ruido, la eliminación de lluvia y la eliminación de neblina.

método

::: bloque-1imagen 3.

PromptIR方法在编码和解码阶段使用了UNet网络架构,其中包含了Transformer块。该框架的主要组件是提示块,由两个模块组成:提示生成模块(PGM)和提示交互模块(PIM)。提示生成模块使用输入特征Fl和提示组件生成与输入条件相关的提示P。然后,提示交互模块通过Transformer块使用生成的提示动态调整输入特征。提示与解码器特征在多个级别交互,以丰富特定于退化的上下文信息。 :::

PromptIR使用提示块来生成可学习的提示参数,并在恢复过程中利用这些提示来指导模型。框架通过逐级编码器-解码器将特征逐步转换为深层特征,并在解码器中引入提示块来辅助恢复过程。提示块在解码器的每个级别中连接,隐式地为输入特征提供关于退化类型的信息,以实现引导恢复。总体来说,PromptIR框架通过逐级编码和解码以及引入提示块的方式实现图像恢复任务。

Prompt Block

本文提出的PromptIR方法借鉴了在自然语言处理和计算机视觉任务中使用的基于提示的技术。在这些任务中,基于提示的技术已经被用于对在源任务上训练的大型固定模型进行参数高效微调,以适应目标任务。基于提示的技术之所以有效,是因为它们能够有效地将任务特定的上下文信息编码到提示组件中。在PromptIR中,提示组件是可学习的参数,与输入特征进行交互,以丰富它们的退化类型信息。提示块由两个关键组件组成:提示生成模块(PGM)和提示交互模块(PIM)

Prompt Generation Module (PGM)

提示组件 P c Ordenador personal 是一组可学习的参数,与输入特征交互,嵌入了退化信息。一种直接的特征-提示交互方法是直接使用学习到的提示来校准特征。然而,这种静态方法可能会产生次优结果,因为它对输入内容是无知的。因此,本文提出了提示生成模块(PGM),它从输入特征中动态预测基于注意力的权重,并将这些权重应用于提示组件,生成与输入条件相关的提示 P PAG 。此外,PGM创建了一个共享空间,促进了提示组件之间的相关知识共享。

为了从输入特征 F l Florida 生成提示权重,PGM首先对空间维度进行全局平均池化(GAP),生成特征向量 v R C ^ v \in \mathbb{R}^{\hat{C}} 。接下来将 v v 通过通道缩减的卷积层,得到一个紧凑的特征向量,然后进行softmax操作,从而得到提示权重 w R N w \in \mathbb{R}^N 。最后使用这些权重对提示组件进行调整,接着应用一个 3 × 3 3 \times 3 的卷积层。总体而言,PGM的过程可以概括为:

P = Conv3x3 ( c = 1 N w i P c ) , w i = Softmax ( Conv1x1 ( GAP ( F l ) ) ) ( 2 ) P = \text{Conv3x3}\left(\sum_{c=1}^{N} w_i P_c\right), \quad w_i = \text{Softmax}\left(\text{Conv1x1}\left(\text{GAP}(F_l)\right)\right) \quad (2)

由于在推理阶段,恢复网络需要能够处理不同分辨率的图像,不能使用具有固定尺寸的提示组件 P c P_c 。因此,作者对提示组件进行双线性插值操作,将其放大到与输入特征相同的尺寸。

Prompt Interaction Module (PIM)

PIM的主要目标是实现输入特征 F l F_l 和提示 P P 之间的交互,以实现有指导的恢复过程。

在PIM中,沿着通道维度将生成的提示与输入特征进行拼接。接下来将拼接后的表示通过一个Transformer块进行处理,该块利用提示中编码的退化信息来转换输入特征。

本文的主要贡献是提示块,它是一个插件模块,与具体的架构无关。因此,在提出的PromptIR框架中,作者使用了现有的Transformer块,而不是开发一个新的块。Transformer块由两个顺序连接的子模块组成:多转置卷积头转置注意力(MDTA)和门控转置卷积前馈网络(GDFN)。MDTA在通道而不是空间维度上应用自注意操作,并具有线性复杂度。GDFN的目标是以可控的方式转换特征,即抑制信息较少的特征,只允许有用的特征在网络中传播。PIM的整体过程为:

F ^ l = Conv3x3 ( GDFN ( MDTA [ F l ; P ] ) ) ( 3 ) \hat{F}_l = \text{Conv3x3}\left(\text{GDFN}\left(\text{MDTA}[F_l; P]\right)\right) \quad (3)

其中 [ ; ] [ ; ] 表示拼接操作。MDTA的公式为 Y = W p V Softmax ( K Q / α ) + X Y = W_p V \cdot \text{Softmax}(K \cdot Q/\alpha) + X ,其中 X X Y Y 分别表示输入和输出特征。 Q Q K K V V 分别表示通过应用 1×1 点卷积后跟随 3×3 深度卷积在层归一化的输入特征图上获得的查询、键和值的投影。 W p W_p 是点卷积, α \alpha 是可学习的缩放参数, ( ) (\cdot) 表示点积交互。GDFN的过程定义为 Z = W p 0 ( ϕ ( W d 1 W p 1 ( LN ( Y ) ) ) W d 2 W p 2 ( LN ( Y ) ) ) + Y Z = W_p^0\left(\phi\left(W_d^1 W_p^1(\text{LN}(Y))\right) \odot W_d^2 W_p^2(\text{LN}(Y))\right) + Y 。其中, W d ( ) W_d^{(\cdot)} 是 3×3 的深度卷积, \odot 表示逐元素乘法, ϕ \phi es la función de activación no lineal de GELU, LN \text{LN} es la normalización de capas.

experimento

::: bloque-1

Tabla 1: Comparación bajo el entorno de restauración omnipotente: usando un solo modelo entrenado en un conjunto de datos combinado de imágenes de diferentes tipos de degradación. Al promediar diferentes tareas, PromptIR tiene una ganancia significativa de 0,86 dB sobre el anterior método integral AirNet. :::

::: bloque-1

Figura 4: Comparación de eliminación de neblina con el método completo en el conjunto de datos SOTS. Los resultados generados por PromptIR son visualmente mejores que los del anterior método AirNet de última generación. :::

::: bloque-1

Figura 5: Comparación de eliminación de lluvia de imágenes con el método todopoderoso basado en el conjunto de datos Rain100L. El método PromptIR elimina eficazmente las gotas de lluvia y produce imágenes sin marcas de lluvia. :::

en conclusión

Los modelos de restauración de imágenes existentes basados ​​en redes neuronales profundas generalmente solo son adecuados para tipos de degradación específicos y tienen una capacidad de generalización limitada en otros tipos de degradación. Sin embargo, en aplicaciones prácticas, se requiere un solo modelo unificado para manejar múltiples tipos de degradación, en lugar de depender de un modelo de tipo de degradación específico, que carece de capacidad de generalización y requiere un conocimiento previo del tipo de degradación específico en la entrada. Con este fin, este documento propone un bloque de sugerencias plug-and-play que puede interactuar con las características de entrada y ajustar dinámicamente las representaciones, haciendo que el proceso de recuperación se adapte a varias tareas de degradación de interés. Mediante la integración de bloques de sugerencias en modelos de restauración de última generación, este documento demuestra la utilidad de los bloques de sugerencias en la restauración de imágenes todopoderosas, logrando mejoras significativas en las tareas de eliminación de ruido, eliminación de lluvia y eliminación de neblina.

Supongo que te gusta

Origin juejin.im/post/7258526520167252005
Recomendado
Clasificación