[Análisis de tesis]Funciones de difusión Plug-and-Play para traducción de imagen a imagen basada en texto

inserte la descripción de la imagen aquí

Enlace al documento: Funciones de difusión Plug-and-Play para
la página de inicio del proyecto de traducción de imagen a imagen basada en texto: https://pnp-diffusion.github.io/

Descripción general

¿Qué problema trata de resolver la tesis?

Dada una sola imagen del mundo real como entrada, el marco permite la traducción genérica guiada por texto del contenido original.

Se propone un nuevo marco para aplicar la síntesis de texto a imagen al dominio de la traducción de imagen a imagen: dada una imagen guía y una señal de texto de destino como entrada, nuestro método aprovecha el poder de generar una nueva imagen que se ajusta al objetivo. texto conservando el diseño semántico de la imagen guiada.

¿Es esta una pregunta nueva?

No es un problema nuevo, la presentación funciona bien.

¿Cuál es la clave de la solución mencionada en el artículo?

Demostramos, tanto de forma observacional como empírica, que se puede lograr un control detallado sobre la estructura generada mediante la manipulación de las características espaciales en el modelo y su autoatención. Este es un enfoque simple y efectivo en el que las características extraídas de las imágenes de guía se inyectan directamente en el proceso de generación de imágenes traducidas sin capacitación ni ajustes. ,

¿Qué tipo de efecto se ha logrado?

Demostrar resultados de alta calidad en tareas generales de traducción de imágenes guiadas por texto, incluida la traducción de bocetos, bocetos y animaciones a imágenes realistas, cambiando la categoría y apariencia de los objetos en una imagen determinada y modificando cualidades globales como la iluminación y el color.

¿Cuál es exactamente la contribución de este artículo?

  • Proporcionamos nuevos conocimientos empíricos sobre las características espaciales internas formadas durante la difusión.
  • Presentamos un marco eficiente que aprovecha el poder de la capacitación previa y la difusión guiada fija, lo que permite realizar traducciones I2I guiadas por texto de alta calidad sin capacitación ni ajustes.
  • Nuestro método supera las líneas base de Sota existentes, logrando un mejor equilibrio entre conservar el diseño de la guía y desviarse de su apariencia.

3. Preliminar

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
El resultado de la autoatención:
inserte la descripción de la imagen aquí

4. Método

Dada una imagen guiada de entrada IG y un indicador de destino tp, nuestro objetivo es generar una nueva imagen I* que se ajuste a P y conserve la estructura y el diseño semántico de la fig.

Observación y prueba empírica:

  • (i) Las características espaciales extraídas de las capas intermedias del decodificador codifican información semántica local y se ven menos afectadas por la información de apariencia;
  • (ii) El bloque de autoatención representa la afinidad entre las características espaciales, lo que permite conservar los detalles finos de diseño y forma.

Nuestro método funciona tanto en imágenes guiadas generadas por texto como en imágenes guiadas del mundo real.

Características espaciales

inserte la descripción de la imagen aquí

imagen 3. Visualice características difusas. Usamos una colección de 20 imágenes similares a las humanas (reales y generadas) y extraemos características espaciales de diferentes capas de decodificador en aproximadamente el 50% del proceso de generación (t = 540). Para cada bloque, aplicamos PCA en las características extraídas de todas las imágenes y visualizamos los primeros tres componentes principales. Las características intermedias (capa 4) revelan regiones semánticas (p. ej., piernas o torsos) que se comparten en todas las imágenes, con grandes variaciones en la apariencia del objeto y el dominio de la imagen. Las funciones más profundas capturan más información de alta frecuencia, que en última instancia forma el ruido de salida de las predicciones del modelo. Ver SM para más visualizaciones.

Como se muestra en la Figura 4, estas propiedades son consistentes durante todo el proceso de generación. A medida que profundizamos en la red, las funciones capturan gradualmente más información de bajo nivel y alta frecuencia, que eventualmente forma el ruido de salida predicho por la red.
inserte la descripción de la imagen aquí

Figura 4. Las propiedades de difusión exceden el paso de tiempo de generación. El PCA visual de l = 4 capas de características espaciales se realiza en imágenes similares a las humanas (Fig. 3). En cada paso de tiempo, las partes semánticas se comparten (con colores similares) entre las imágenes.

inyección de funciones

La Figura 5(a) muestra el efecto de aumentar las características espaciales inyectadas en la capa l. Se puede ver que solo inyectar características en la capa l = 4 no es suficiente para preservar la estructura de la imagen guiada.
inserte la descripción de la imagen aquí

Figura 5. Funciones de ablación y atención a la inyección. (a) Las características extraídas de la imagen guiada (izquierda) se inyectan en el proceso de generación de la imagen traducida (guiada por una indicación textual determinada). Aunque las características de la capa intermedia (Capa 4) exhiben información semántica local (Fig. 3), inyectar estas características por sí solas no es suficiente para preservar la estructura de guía. La incorporación de características más profundas (y de mayor resolución) conserva mejor la estructura, pero conduce a una fuga de apariencia de la imagen guía a la imagen generada (capas 4-11). (b) Inyectar características solo en la capa 4 y mapas de autoatención en capas de mayor resolución alivia este problema. (c) Inyectar solo el mapa de autoatención limita la afinidad entre las características, mientras que no existe una asociación semántica entre las características de guía y las características generadas, lo que lleva a una desalineación estructural. El resultado de la configuración final está resaltado en naranja.

atención propia

La Figura 6 muestra los principales componentes principales de la matriz Alt para una imagen dada. Se puede observar que en las primeras capas, la atención se alinea con la disposición semántica de la imagen, agrupando regiones según partes semánticas. Gradualmente, se captura información de mayor frecuencia.
inserte la descripción de la imagen aquí

Figura 6. Visualización de autoatención. Se muestran los tres componentes principales de la matriz de autoatención calculada para las imágenes de entrada de las tres capas diferentes. Los componentes principales están alineados con el diseño de la imagen: regiones similares comparten colores similares. Tenga en cuenta que todos los píxeles de los pantalones tienen un color similar, a pesar de sus diferentes apariencias en la imagen de entrada.

En realidad, la inyección de la matriz de autoatención se realiza sustituyendo la matriz Alt en la Ecuación 2. Intuitivamente, esta operación acerca las características según la afinidad codificada en Alt. Expresamos esta operación adicional modificando la Ecuación (3) de la siguiente manera
inserte la descripción de la imagen aquí

El algoritmo se resume de la siguiente manera:
inserte la descripción de la imagen aquí

Incitación negativa

En la guía sin clasificador [20], el ruido de predicción en cada paso de muestreo es
inserte la descripción de la imagen aquí

epsilon Extrapolación directa a partir de predicciones condicionales θ(xt, P, t) y extrapolación a partir de predicciones incondicionales θ(xt, ∅, t). Esto aumenta la fidelidad de la imagen sin ruido a la señal P al tiempo que permite desviaciones de θ(xt,∅,t). De manera similar, podemos alejarnos de θ(Xt,Pn,t) reemplazando la señal vacía en la ecuación (5) con una señal "negativa" Pn. Por ejemplo, al usar una PN que describe una imagen guiada, podemos alejar la imagen sin ruido del contenido original. Usamos el parámetro ∈ [0, 1] para equilibrar señales neutrales y negativas:
inserte la descripción de la imagen aquí

En la práctica, encontramos que las sugerencias negativas son beneficiosas para procesar imágenes de guía "primitivas" sin textura (por ejemplo, imágenes de silueta). Desempeña un pequeño papel en las imágenes de navegación de aspecto natural.

5 resultados

inserte la descripción de la imagen aquí

Figura 7. Resultados de ejemplo de nuestro método en pares de imagen y texto en los puntos de referencia Wild-TI2I e ImageNet-R-TI2I.

inserte la descripción de la imagen aquí

Figura 8. Comparar. Se muestran resultados de ejemplo para dos puntos de referencia: ImageNet-R-TI2I y Wild-TI2I, que incluyen imágenes de orientación reales y generadas, respectivamente. De izquierda a derecha: imagen guiada y aviso de texto, nuestros resultados, P2P [16], DiffuseIT [25], SDedit [27] con 3 niveles de ruido diferentes, VQ+CLIP [9].

inserte la descripción de la imagen aquí

Figura 9. Evaluación cuantitativa. Se midieron la similitud del coseno CLIP (más alto es mejor) y la distancia de autosimilitud DINO-ViT (más bajo es mejor) para cuantificar la fidelidad y la preservación de la estructura del texto, respectivamente. Estas métricas se informan en tres puntos de referencia: (a) Wild-TI2Ifor, que incluye la ablación del método propuesto, (b) ImageNet-R-TI2I y © Generated-ImageNet-R-TI2I. Tenga en cuenta que solo podemos compararlo con P2P debido a las limitaciones de sugerencias de (b) y ©. Todas las líneas de base luchan por lograr simultáneamente una distancia estructural baja y puntuaciones de recorte altas. El método propuesto muestra un mejor equilibrio entre estos dos puntos finales en todos los puntos de referencia.

inserte la descripción de la imagen aquí

Figura 10. Comparación con P2P en el banco de pruebas ImageNet-R-TI2I generado. Si bien los resultados de P2P muestran una alta fidelidad al texto de destino, existen desviaciones significativas de la estructura guiada, especialmente en el caso de intercambios de varias palabras (las dos últimas filas). En todos los ejemplos, nuestros resultados se adhieren a las ediciones de objetos mientras conservan el diseño de la escena guiada y la pose del objeto.
inserte la descripción de la imagen aquí

Figura 11. Comparación cualitativa con otras líneas base: Text2LIVE [4], DiffusionCLIP [22], FlexIT [8]. Estos métodos no pueden desviarse de la estructura para coincidir con el indicador de destino ni crear artefactos no deseados.

6. Discusión y Conclusión

Este documento presenta un marco novedoso para varias traducciones de imagen a imagen guiadas por texto, basándose en nuevos conocimientos sobre las representaciones internas de modelos de difusión de texto a imagen preentrenados. El método propuesto, basado en la manipulación simple de características, supera las líneas base existentes, logrando un mejor equilibrio entre conservar el diseño de la guía y desviarse de su apariencia. En cuanto a las limitaciones, el método se basa en la asociación semántica de contenido original y traducido en un espacio de características difusas. Por lo tanto, no funciona bien en máscaras de segmentación de etiquetas detalladas con colores arbitrarios de regiones (Fig. 12). Además, confiamos en la inversión de DDIM, que encontramos que funciona bien para la mayoría de los ejemplos. Sin embargo, para imágenes "mínimas" sin texturas, DDIM a veces puede conducir a valores latentes que codifican predominantemente información de apariencia de baja frecuencia, en cuyo caso alguna información de apariencia se filtra en nuestros resultados. Nuestro trabajo demuestra el potencial no realizado de los espacios de características ricos y poderosos que abarcan los modelos de difusión de texto a imagen preentrenados. Esperamos que pueda impulsar futuras investigaciones en esta dirección.
inserte la descripción de la imagen aquí

Figura 12. limitaciones. Nuestro método falla cuando no existe una asociación semántica entre el contenido de la guía y el texto de destino. Por lo tanto, no funciona bien en máscaras de segmentación de entidades de colores arbitrarios.

Supongo que te gusta

Origin blog.csdn.net/NGUever15/article/details/129872102
Recomendado
Clasificación