Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje

Chitwan Saharia, Google Research, Brain Team, Neurips2022, Citado: 619, Código , Papel

1. Introducción

Presentamos Imagen, un modelo de difusión de texto a imagen con niveles de realismo sin precedentes y comprensión profunda del lenguaje. Imagen se basa en grandes modelos de lenguaje Transformer para comprender el texto y se basa en la fuerza de los modelos de difusión en la generación de imágenes de alta fidelidad. Nuestro hallazgo clave es que los modelos generales de lenguaje grande (por ejemplo, T5) preentrenados en corpus de texto sin formato son sorprendentemente efectivos para codificar texto para la síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen es más rápido que aumentar el tamaño del modelo de difusión de imágenes Mejor muestra fidelidad y alineación del texto de la imagen. Imagen logra un puntaje FID de última generación de 7.27 en el conjunto de datos COCO sin capacitación en COCO, y los evaluadores humanos encuentran que las muestras de Imagen están a la par con los datos COCO en términos de alineación de imagen y texto. Para una evaluación más profunda de los modelos de texto a imagen, presentamos DrawBench, un punto de referencia completo y desafiante para los modelos de texto a imagen. Usando DrawBench, comparamos Imagen con métodos recientes, incluidos VQ-GAN+CLIP, Latent Diffusion Models, GLIDE y DALL-E 2, y descubrimos que los evaluadores humanos prefieren Imagen en las comparaciones en paralelo, tanto en términos de calidad de la muestra O alineación imagen-texto.

2. Introducción

En los últimos años ha ido surgiendo paulatinamente el aprendizaje multimodal, entre los que destacan la síntesis texto-imagen y el aprendizaje contrastivo imagen-texto. Estos modelos transformaron la comunidad de investigación y obtuvieron una amplia atención pública a través de aplicaciones creativas de generación y edición de imágenes. Para explorar más a fondo esta dirección de investigación, presentamos Imagen, un modelo de difusión de texto a imagen que combina el poder de los modelos de lenguaje transformador (LM) y los modelos de difusión de alta fidelidad para proporcionar un realismo fotográfico sin precedentes y una comprensión más profunda del lenguaje. En comparación con el trabajo anterior sobre el entrenamiento de modelos utilizando solo datos de imagen y texto, el hallazgo clave detrás de Imagen es que las incrustaciones de texto de un Lm grande, previamente entrenado en un corpus de solo texto, son muy efectivos para la síntesis de texto e imagen.
inserte la descripción de la imagen aquí
Aunque Imagen es conceptualmente simple y fácil de entrenar, produce resultados sorprendentemente poderosos. El FID-30K de tiro cero de Imagen en COCO es 7.27, superando a otros métodos y superando significativamente el trabajo anterior, como el trabajo paralelo en GLIDE (12.4) y DALL-E 2 (10.4). Nuestro puntaje FID de tiro cero también supera a los modelos de última generación entrenados en COCO, por ejemplo, Make-A-Scene (7.6). Además, los evaluadores humanos notaron que las muestras generadas a partir de Imagen eran consistentes con las imágenes de referencia en los subtítulos de COCO en términos de alineación de imagen y texto.

Presentamos DrawBench, un nuevo conjunto de indicaciones de texto estructurado para la evaluación de texto a imagen. DrawBench proporciona conocimientos más profundos a través de la evaluación multidimensional de modelos de texto a imagen, y las sugerencias de texto apuntan a probar diferentes propiedades semánticas del modelo. Estos incluyen composicionalidad, cardinalidad, relaciones espaciales, la capacidad de manejar señales textuales complejas o señales con palabras raras y señales creativas que empujan los límites de la capacidad de un modelo para generar escenarios altamente inverosímiles mucho más allá del entrenamiento de la extensión de los datos. Usando DrawBench, extensas evaluaciones humanas muestran que Imagen supera a otros métodos recientes. Además, demostramos algunas ventajas claras de usar grandes modelos de lenguaje preentrenados como codificadores de texto de Imagen, en lugar de usar incrustaciones multimodales como CLIP.

Los principales aportes son:

Encontramos que los grandes modelos de lenguaje congelado entrenados solo en datos de texto son codificadores de texto muy efectivos para la generación de texto a imagen, y que escalar el tamaño del codificador de texto congelado mejora la calidad de la muestra significativamente más que escalar el tamaño del modelo de difusión de imágenes.
Presentamos umbralización dinámica, una nueva técnica de muestreo difuso, para aprovechar los altos pesos de arranque, generando imágenes más realistas y detalladas que antes.
Destacamos varias opciones importantes de diseño de arquitectura de difusión y proponemos Efficient U-Net, una nueva variante arquitectónica que es más simple, converge más rápido y es más eficiente en memoria.
Implementamos el último COCO FID 7.27. Los evaluadores humanos encontraron que Imagen estaba a la par con las imágenes de referencia en términos de alineación de imagen y texto.
Presentamos DrawBench, un nuevo punto de referencia de evaluación integral y desafiante para tareas de texto a imagen. En la evaluación humana de DrawBench, encontramos que Imagen supera a todos los demás trabajos, incluido el trabajo concurrente en DALL-E 2 [54].

3. Imagen

Imagen consta de un codificador de texto que asigna texto a una secuencia de incrustaciones y una cascada de modelos de difusión condicional que asignan estas incrustaciones a imágenes de resolución creciente (ver figura). En las siguientes subsecciones, describimos cada componente en detalle:
inserte la descripción de la imagen aquí

3.1 Codificador de texto preentrenado

Los modelos de texto a imagen requieren potentes codificadores de texto semántico para capturar la complejidad y composición de las entradas de texto de lenguaje natural arbitrario. En los modelos actuales de texto a imagen, es un procedimiento estándar entrenar codificadores de texto en datos de imagen y texto emparejados; pueden entrenarse desde cero o pre-entrenarse en datos de imagen y texto (por ejemplo, CLIP). Los objetivos de entrenamiento de imagen a texto muestran que estos codificadores de texto pueden codificar semántica visual y representaciones significativas, especialmente relevantes para tareas de generación de texto a imagen. Otra opción para codificar texto es un modelo de lenguaje grande. Los avances recientes en modelos de lenguajes grandes (por ejemplo, BERT, GPT, T5) han mostrado avances en la comprensión de textos y capacidades de generación. Los modelos de lenguaje se entrenan en corpus de solo texto, que son mucho más grandes que los datos emparejados de imagen y texto y, por lo tanto, están expuestos a una distribución de texto muy rica y amplia. Estos modelos también suelen ser mucho más grandes que los codificadores de texto en los modelos actuales de imagen a texto.

Por lo tanto, resulta natural explorar dos familias de codificadores de texto para tareas de conversión de texto a imagen. Imagen explora codificadores de texto preentrenados: BERT, T5 y CLIP. Para simplificar, congelamos los pesos de estos codificadores de texto. La congelación tiene ventajas, como el cálculo fuera de línea de incrustaciones, y tiene un uso de memoria o cálculo insignificante durante el entrenamiento del modelo de texto e imagen. En nuestro trabajo encontramos una clara convicción de que escalar el tamaño del codificador de texto mejora la calidad de la generación de texto a imagen.

3.2 Modelo de difusión y orientación sin clasificador

Aquí presentamos brevemente los modelos de difusión. Los modelos de difusión son una clase de modelos generativos que convierten el ruido gaussiano en muestras de la distribución de datos aprendida a través de un proceso iterativo de eliminación de ruido. Estos modelos pueden ser condicionales, por ejemplo, basados en etiquetas de clase, texto o imágenes de baja resolución. La forma de la función de pérdida:
$\mathbb{E}_{\mathbf{x}, \mathbf {c}, \boldsymbol{\epsilon}, t}\left[w_{t}\left\|\hat{\mathbf{x}}_{\theta}\left(\alpha_{t} \mathbf {x}+\sigma_{t} \boldsymbol{\epsilon}, \mathbf{c}\right)-\mathbf{x}\right\|_{2}^{2}\right]$
Esto es diferente de lo que sueles ver, déjame decirte, aquí está la predicción $x_{0}=x$ , $c$ es $x_{0}$ condiciones correspondientes. El peso es con $dependiente de t$ , lo que significa que para diferentes $El$ valor t se da con diferentes pesos, $La pérdida de t$ es diferente, en resumen, es para $Se$ divide en grados de dificultad.

La guía del clasificador es una técnica que utiliza la corrección de gradiente de modelos entrenados previamente durante el muestreo para mejorar la calidad de la muestra y reducir la diversidad en los modelos de difusión condicional. Consulte Difusión guiada/Modelos de difusión superan las GAN en síntesis de imágenes (lectura en papel) para obtener más información . durante el entrenamiento. $c$ (por ejemplo, 10% de probabilidad), el entrenamiento conjunto de un solo modelo de difusión en los objetivos condicionados y no condicionados evita este modelo de preentrenamiento. Tenga en cuenta que este artículo utiliza el $x$ predice, es decir,también predice el ruido $\epsilon_{\theta}$ , pero primero transforma el ruido en $\hat x a través de la fórmula$ Especifica la ecuación:
$\tilde \epsilon_{\theta}(x_{t}, c) = w\epsilon_{\theta}(x_{t}, c) + (1-w)\epsilon_{\theta}(x_{t})$
es en realidad un equilibrio condicional e incondicional, $w = 1$ es condicional, si $w > 1$ , la condición será mejorada.

3.3 Muestreadores de gran peso guía

Corroboramos los resultados del trabajo reciente sobre la difusión guiada por texto y descubrimos que agregar pesos de arranque sin clasificadores mejora la alineación de imagen y texto pero compromete la fidelidad de la imagen, lo que da como resultado imágenes altamente saturadas y poco naturales. Descubrimos que esto se debió a un desajuste de prueba de tren causado por pesos de arranque altos. En cada paso de muestreo $t$ , $La predicción de x$ debe estar dentro de los mismos datos de entrenamiento que $x$ está dentro de los mismos límites, es decir, dentro de [-1, 1], pero descubrimos empíricamente que los pesos de arranque altos conducen a $La predicción de x$ excede estos límites. Este es un desajuste de prueba de tren, y el proceso de muestreo produce imágenes no naturales, a veces divergentes, ya que el modelo de difusión se aplica repetidamente a su propia salida durante todo el proceso de muestreo. Para solucionar este problema, investigamos el umbral estático y el umbral dinámico. La visualización del efecto es la siguiente:

inserte la descripción de la imagen aquí
Técnica de umbralización para muestras de 256×256 de “Fotografías de Astronautas Montando a Caballo”. Los pesos de Bootstrap aumentan de 1 a 5 de arriba a abajo. El procesamiento sin umbralización da como resultado imágenes más pobres con pesos de arranque elevados. El umbral estático es una mejora, pero aún conduce a la sobresaturación de las muestras. Nuestro umbral dinámico logra imágenes de la más alta calidad.

3.4 Modelo Robusto de Difusión en Cascada

Imagen utiliza la canalización del modelo base de 64 × 64 y dos modelos de difusión de superresolución condicional de texto para aumentar la muestra de la imagen generada de 64 × 64 a una imagen de 256 × 256 y luego aumentar la muestra a una imagen de 1024 × 1024. Los modelos de difusión en cascada con aumento ajustado por ruido son muy efectivos para generar gradualmente imágenes de alta fidelidad ( Modelos de difusión en cascada para la generación de imágenes de alta fidelidad ). Además, al hacer que el modelo de súper resolución sea consciente de la cantidad de ruido agregado a través del ajuste del nivel de ruido, mejora significativamente la calidad de la muestra y ayuda a aumentar la solidez del modelo de súper resolución para lidiar con los artefactos generados por el modelo de baja resolución. . Imagen utiliza aumento ajustado por ruido para ambos modelos de superresolución. Descubrimos que esto es fundamental para generar imágenes de alta fidelidad.

Dada una imagen de baja resolución condicionada y un nivel de aumento (también llamado $aug_level) (p. ej., ruido gaussiano o fuerza de desenfoque), corrompemos la imagen de baja resolución con aumento (correspondiente a aug_level) y condición en el modelo de difusión aug_level. Durante el entrenamiento, el aug_level se elige aleatoriamente, mientras que durante la inferencia escaneamos sus diferentes valores para encontrar la mejor calidad de muestra . En nuestro caso, utilizamos el ruido gaussiano como una forma de aumento y aplicamos un aumento del ruido gaussiano que conserva la varianza similar al proceso directo utilizado en el modelo de difusión.

4. Evaluación y experimentación

inserte la descripción de la imagen aquí
Entrenamos 2 mil millones de modelos de parámetros para la síntesis de texto a imagen de 64 × 64, y entrenamos modelos de parámetros de 600M y 400M para 64 a 256 y 256 a 1024, respectivamente. Utilizamos un tamaño de lote de 2048 y 2,5 millones de pasos de entrenamiento para todos los modelos. Nuestro modelo básico de 64 × 64 usa 256 chips TPU-v4, y ambos modelos de súper resolución usan 128 chips TPU-v4. Calculé que cuesta unos 6 millones de yuanes al día, solo esta GPU .

5. Red U eficiente

Presentamos una nueva variante arquitectónica para nuestro modelo de súper resolución, que llamamos Efficient U-Net. Descubrimos que nuestra U-Net eficiente es más simple, converge más rápido y es más eficiente en memoria que algunas implementaciones anteriores, especialmente para resoluciones altas. Realizamos varias modificaciones clave en la arquitectura de U-Net, como cambiar los parámetros del modelo de bloques de alta resolución a bloques de baja resolución, escalar las conexiones omitidas en $1/\sqrt{2}$ , e invierta el orden de las operaciones de submuestreo/submuestreo para mejorar la velocidad del pase hacia adelante. Efficient U-Net realiza varias modificaciones clave al modelo típico de U-Net:

Transferimos los parámetros del modelo de bloques de alta resolución a bloques de baja resolución agregando más bloques residuales para resoluciones más bajas. Dado que los bloques de menor resolución suelen tener más canales, esto nos permite aumentar la capacidad del modelo con más parámetros del modelo sin incurrir en costos computacionales y de memoria prohibitivos.
Cuando usamos una gran cantidad de bloques residuales a resoluciones más bajas (usamos 8 bloques residuales a resoluciones más bajas), encontramos que escalar las conexiones salteadas en $1/\sqrt{2}$ Velocidad de convergencia significativamente mejorada.
En el bloque de muestreo descendente de una U-Net típica, la operación de muestreo descendente ocurre después de la convolución, mientras que la operación de muestreo ascendente en el bloque de muestreo ascendente ocurre antes de la convolución. Invertimos el orden de los bloques de submuestreo y submuestreo para acelerar significativamente el avance de U-Net y no ver una caída en el rendimiento.

Con estas simples modificaciones clave, Efficient U-Net es más simple, converge más rápido y es más eficiente en memoria que algunas implementaciones anteriores de U-Net. La siguiente figura muestra la arquitectura completa de U-Net eficiente, mientras que las Figuras A.28 y A.29 muestran la descripción detallada de los bloques de submuestreo y submuestreo de U-Net eficiente, respectivamente.

inserte la descripción de la imagen aquí