Modelo de difusión de difusión estable + Modelo de consistencia de consistencia

1 La transición de GAN a difusión estable

Con la acumulación continua de inteligencia artificial en tecnologías de generación de imágenes, generación de texto y generación multimodal 生成领域, red de confrontación generativa (GAN), autocodificador diferencial variable (VAE), modelos de flujo de normalización, modelo autorregresivo (AR), modelos basados ​​en energía y el modelo de difusión de los incendios de los últimos años (Diffusion Model).

GAN: Discriminador adicional
VAE: Alineación de la distribución posterior
EBM Modelos basados ​​en energía: Manejo de funciones de partición
Flujo de normalización: Imposición de restricciones de red
inserte la descripción de la imagen aquí

El campo de generación GAN está un poco desactualizado y Stable Diffusion toma su lugar El campo de generación GAN está un poco desactualizado y Stable Diffusion toma su lugarEl campo generativo G A N se ha vuelto un poco anticuado, St ab l e D i ffu s i o n ha tomado su lugar

  • GAN necesita entrenar dos redes, lo que se siente más difícil, propenso a la falta de convergencia y poca diversidad, así que solo concéntrese en poder engañar al discriminador.
  • Diffusion Model utiliza un método más simple para explicar cómo aprender y generar modelos generativos, que en realidad se siente más simple.

DALL E2 (basado en el modelo de fusión de imagen-texto multimodal CLIP), modelo de difusión de difusión estable

2 Historia de DDPM a difusión estable

2.1 DDPM

Los modelos de difusión son una clase de modelos generativos que generan imágenes directamente a partir de ruido aleatorio. [Modelo de difusión DDPM: Modelos probabilísticos de difusión de eliminación de ruido]

Idea : entrenar un modelo de estimación de ruido y restaurar el ruido aleatorio de entrada en una imagen, 其中噪声就是标签,还原的时候,模型根据噪声生成对应的图像.

Proceso de entrenamiento : Ruido generado aleatoriamente ϵ \epsilonϵ , después de N pasos, el ruido se difunde gradualmente a la imagen original de entradax 0 x_0X0En, la imagen después de la destrucción es xn x_nXn, aprende a destruir el ruido estimado de la imagen ϵ θ ( xn , n ) \epsilon_\theta( x_n,n)ϵi( Xn,n ) , con restricciones de pérdida L2 yϵ \epsilonϵ distancia desde el ruido de entrada original.

Proceso de inferencia : ingrese ruido y restáurelo en una imagen después del modelo de ruido estimado.
inserte la descripción de la imagen aquí
Resumen : ¿Cómo funciona el modelo de difusión?
Proceso de entrenamiento: 前向扩散过程agregue gradualmente ruido gaussiano a una imagen hasta que la imagen se convierta en ruido aleatorio.
Proceso de razonamiento: 反向生成过程partiendo de un ruido aleatorio y eliminando gradualmente el ruido hasta generar una imagen.

inserte la descripción de la imagen aquí

Fórmula importante para el proceso de difusión directa :
xt x_tXtes la distribución de imágenes en el tiempo t, zi z_izyoes ruido, podemos pasar la distribución inicial x 0 x_0X0y ruido zi z_izyo, realice una difusión de N pasos para obtener la imagen de ruido final xn x_nXn
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquíinserte la descripción de la imagen aquí

La fórmula importante del proceso de generación inversa :
aprender el modelo de predicción de ruido ϵ θ ( xn , n ) \epsilon_\theta( x_n,n)ϵi( Xn,n ) , generar aleatoriamente un ruido inicialxn x_nXn, a través de este modelo, realice N pasos para generar ruido y restaurar a x 0 x_0X0imagen.
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Ruido de predicción UNet Z t Z_tZt
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

La clave de la función de difusión :
modelo de variable oculta, ambos procesos son una cadena de Markov parametrizada, inferencia variacional para modelar y resolver

2.2 Difusión estable

El mayor problema con el modelo de difusión es que es extremadamente "caro" tanto en términos de costo de tiempo como de costo económico. La aparición de Stable Diffusion es para resolver los problemas anteriores. Si queremos generar una imagen de tamaño 1024 × 1024, U-Net utilizará ruido de tamaño 1024 × 1024 y luego generará una imagen a partir de él. La cantidad de cálculo para hacer la difusión de un paso aquí es muy grande, sin mencionar la iteración varias veces hasta el 100%. Una solución es dividir la imagen grande en varias imágenes de baja resolución para el entrenamiento y luego usar una red neuronal adicional para generar imágenes de mayor resolución (difusión de súper resolución).

inserte la descripción de la imagen aquí
Espacio latente (Lantent Space)
El espacio latente es simplemente una representación de datos comprimidos. La compresión se refiere al proceso de codificación de información con menos bits que la representación original. Por ejemplo, usamos un canal de color (negro, blanco y gris) para representar una imagen compuesta originalmente de tres colores primarios RGB.En este momento, el vector de color de cada píxel cambia de 3 dimensiones a 1 dimensión. La reducción de dimensionalidad perderá algo de información, pero en algunos casos, la reducción de dimensionalidad no es mala. A través de la reducción de la dimensionalidad, podemos filtrar información menos importante y mantener solo la información más importante.

Supongamos que entrenamos un modelo de clasificación de imágenes a través de una red neuronal convolucional totalmente conectada. Cuando decimos que el modelo está aprendiendo, queremos decir que está aprendiendo propiedades específicas de cada capa de la red neuronal, como bordes, ángulos, formas, etc. Siempre que el modelo aprende usando datos (imágenes que ya existen), toma la imagen se reduce primero en tamaño y luego se restaura a su tamaño original. Finalmente, el modelo usa el decodificador para reconstruir la imagen a partir de los datos comprimidos mientras aprende toda la información relevante anterior. Por lo tanto, el espacio se vuelve más pequeño para poder extraer y preservar los atributos más importantes. Esta es la razón por la que los espacios latentes son adecuados para los modelos de difusión.
inserte la descripción de la imagen aquí
Latent Diffusion
"Latent Diffusion Model" (Modelo de difusión latente) combina la capacidad de percepción de GAN, la capacidad de preservación de detalles del modelo de difusión y la capacidad semántica de Transformer para crear un modelo de generación más robusto y eficiente que todos los modelos anteriores. En comparación con otros métodos, Latent Diffusion no solo ahorra memoria, sino que las imágenes generadas mantienen la diversidad y el alto nivel de detalle, mientras que las imágenes también conservan la estructura semántica de los datos.

Cualquier método de aprendizaje generativo tiene dos fases principales: compresión perceptiva y compresión semántica.

Compresión perceptiva
En la fase de aprendizaje de la compresión perceptiva, los métodos de aprendizaje deben eliminar los detalles de alta frecuencia para encapsular los datos en representaciones abstractas. Este paso es necesario para construir una representación estable y robusta del entorno. Las GAN son buenas para la compresión perceptiva, lo que hacen al proyectar datos redundantes de alta dimensión desde el espacio de píxeles al hiperespacio del espacio latente. Un vector latente en el espacio latente es una forma comprimida de la imagen de píxel original, que puede reemplazar efectivamente la imagen original. Más específicamente, la compresión perceptiva se captura con una arquitectura de codificador automático. El codificador de un codificador automático proyecta datos de alta dimensión en un espacio latente y el decodificador recupera imágenes del espacio latente.

Compresión Semántica
En la segunda etapa de aprendizaje, los métodos de generación de imágenes deben ser capaces de capturar la estructura semántica presente en los datos. Esta estructura conceptual y semántica proporciona la preservación del contexto y las interrelaciones de varios objetos en una imagen. Transformer es bueno para capturar la estructura semántica en texto e imágenes. La combinación de la capacidad de generalización de Transformer y la capacidad de conservación de detalles del modelo de difusión proporciona lo mejor de ambos mundos y ofrece una forma de generar imágenes muy detalladas de granularidad fina al tiempo que conserva la estructura semántica de la imagen.

Autoencoder VAE
Autoencoder (VAE) consta de dos partes principales: codificador y decodificador. El codificador convertirá la imagen en una representación latente de baja dimensión (espacio de píxeles -> espacio latente), que se pasará como entrada a U_Net. El decodificador hace lo contrario, transformando la representación latente nuevamente en la imagen (espacio latente -> espacio de píxeles).
inserte la descripción de la imagen aquí
U-Net
U-Net también consta de un codificador y un decodificador, ambos compuestos por bloques ResNet. El codificador comprime la representación de la imagen en una imagen de menor resolución, y el decodificador decodifica la resolución más baja a una imagen de mayor resolución. Para evitar que U-Net pierda información importante al reducir la resolución, generalmente se agrega una conexión de acceso directo entre la ResNet de reducción de resolución del codificador y la ResNet de aumento de resolución del decodificador.
inserte la descripción de la imagen aquí
Además, U-Net en Stable Diffusion puede condicionar su salida en incrustaciones de texto a través de capas de atención cruzada. Las capas de atención cruzada se agregan a las partes del codificador y decodificador de U-Net, generalmente entre bloques ResNet.

Codificador de texto
Un codificador de texto convierte las señales de entrada en un espacio integrado que U-Net puede comprender. Generalmente, un codificador simple basado en un transformador que asigna una secuencia de tokens a una secuencia de incrustaciones de texto latente. Las indicaciones de alta calidad son importantes para la calidad de salida intuitiva, razón por la cual hay tanto énfasis en el diseño de indicaciones en estos días. El diseño de solicitud consiste en encontrar ciertas palabras clave o expresiones, de modo que la solicitud pueda desencadenar que el modelo produzca resultados con las propiedades o los efectos esperados.
inserte la descripción de la imagen aquí

3 Consistencia termina Difusión

Los modelos de difusión se basan en un proceso generativo iterativo, lo que hace que dichos métodos sean lentos para muestrear, lo que a su vez limita su potencial para aplicaciones en tiempo real.

Para superar esta limitación, OpenAI propuso Modelos de consistencia, que es un nuevo tipo de modelo generativo que 无需对抗训练puede obtener rápidamente muestras de alta calidad. Los modelos de consistencia admiten ser rápidos one-step 生成al mismo tiempo que permiten few-step 采样un compromiso entre el esfuerzo computacional y la calidad de la muestra. También admiten 零样本(zero-shot)数据编辑, por ejemplo, la pintura de imágenes, la colorización y la superresolución sin necesidad de una formación específica para estas tareas. Los modelos de consistencia se pueden entrenar como modelos de difusión preentrenados destilados o como modelos generativos independientes.

Modelos de consistencia Como modelo generativo, 核心设计思想是支持 single-step 生成,同时仍然允许迭代生成,支持零样本(zero-shot)数据编辑,权衡了样本质量与计算量.

Los primeros modelos de consistencia se basan en la ecuación diferencial ordinaria (ODE) de flujo de probabilidad (PF) en el modelo de difusión de tiempo continuo. Como se muestra en la figura a continuación, dado un PF ODE que transforma suavemente los datos en ruido, los modelos de consistencia aprenden a asignar cualquier punto al punto inicial de la trayectoria en cualquier paso de tiempo para el modelado generativo. Una propiedad notable de los modelos de consistencia es la autoconsistencia: los puntos en la misma trayectoria se asignan al mismo punto inicial. Es por esto que los modelos se denominan Modelos de Consistencia.
inserte la descripción de la imagen aquí

Los modelos de consistencia permiten generar muestras de datos (punto inicial de la trayectoria ODE, por ejemplo, x_0 en la Figura 1) mediante la evaluación de vectores de ruido aleatorio transformados (puntos finales de la trayectoria ODE, por ejemplo, x_T en la Figura 1) utilizando solo una red. Más importante aún, al encadenar la salida de los modelos de modelos de consistencia en varios pasos de tiempo, el método puede mejorar la calidad de la muestra y realizar ediciones de datos de muestra cero a costa de más cómputo, similar a la optimización iterativa de los modelos de difusión.

inserte la descripción de la imagen aquí
En términos de capacitación, el equipo de investigación proporciona dos métodos basados ​​en la autoconsistencia para los modelos de consistencia.

  • El primer método se basa en el uso de un solucionador de ODE numérico y un modelo de difusión preentrenado para generar pares de puntos adyacentes en la trayectoria de ODE de PF. Al minimizar la diferencia entre los resultados del modelo para estos pares de puntos, este estudio destila efectivamente los modelos de difusión en modelos de consistencia, lo que permite la generación de muestras de alta calidad a través de una evaluación de red.

  • El segundo método elimina por completo la dependencia del modelo de difusión preentrenado y puede entrenar modelos de consistencia de forma independiente. Este enfoque posiciona a los Modelos de Consistencia como una clase independiente de modelos generativos.

Vale la pena señalar que ninguno de los métodos de entrenamiento requiere entrenamiento contradictorio, y ambos permiten que los modelos de consistencia adopten arquitecturas de redes neuronales de manera flexible.

Supongo que te gusta

Origin blog.csdn.net/weixin_54338498/article/details/130174582
Recomendado
Clasificación