El artículo propone modelos de difusión latente (LDM). El trabajo más famoso basado en este modelo es el modelo de imagen de generación de texto de difusión estable .

Los modelos de difusión ordinarios operan en el espacio de píxeles y tienen una alta complejidad computacional. Para garantizar que el modelo de difusión pueda entrenarse con bajos recursos y conservar la calidad y flexibilidad del modelo de difusión, este artículo utiliza un codificador automático previamente entrenado para obtener el espacio implícito y entrenar el modelo de difusión en el espacio implícito. Por otro lado, este artículo utiliza el mecanismo de atención cruzada para introducir condiciones para el modelo de difusión, que pueden ser texto, cuadros delimitadores, etc.

método

La estructura general del método se muestra en la figura anterior.

Primero use el codificador automático para entrenar un modelo de compresión general (parte roja). El modelo de compresión general se puede usar para entrenar diferentes modelos de difusión.

Luego, el modelo de difusión (parte verde) se entrena en el espacio implícito de baja dimensión del codificador automático para reducir la complejidad computacional.

Compresión de imagen

Utilice la pérdida de percepción y el objetivo adversario basado en parches para entrenar un codificador automático para la compresión de imágenes.

Se utiliza $x=\mathbb{R}^{H \times W \times 3}$ para representar imágenes. Hay codificadores $z=\mathcal{E}(x)$ y decodificadores $\tilde{x}=\mathcal{D}(z)$ .

$z=\mathbb{R}^{h \times w \times c}$ , z es la representación implícita muestreada hacia abajo y es el resultado de la compresión. La representación implícita bidimensional ayuda a preservar los detalles de la imagen.

Para evitar una variación excesivamente alta en el espacio latente, el autor utiliza dos regularizaciones.

KL-reg. De manera similar a VAE, se supone que la representación implícita obedece a la distribución normal estándar.
Registro VQ. El decodificador utiliza una capa de cuantificación vectorial.

modelo de difusión implícita

La fórmula de optimización del modelo de difusión ordinaria es la siguiente:

Una vez entrenado el modelo de compresión, se obtiene un espacio latente de baja dimensión. El beneficio de este espacio para modelos generativos basados en probabilidad es que los modelos generativos pueden prestar más atención a información semántica importante y pueden entrenarse de manera más eficiente.

El artículo propone entrenar el modelo de difusión en el espacio implícito. La fórmula para la optimización del modelo de difusión basada en representación implícita es la siguiente:

Que $\epsilon_\theta$ se implementa utilizando UNet condicional en el tiempo.

mecanismo condicional

Los autores complementan UNet utilizando un mecanismo de atención cruzada para introducir condiciones. El cálculo de la atención cruzada es el siguiente:

donde $\tau_\theta(y) \in \mathbb{R}^{M \times d_\tau}$ está la representación intermedia de la condición y obtenida a través del codificador, $\varphi_i(z_t) \in \mathbb{R}^{N \times d_\epsilon^i}$ que es la representación intermedia de UNet.

La fórmula de optimización del modelo de difusión implícita basada en condiciones es la siguiente:

Algunos sustantivos encontrados

Bits por dimensión

Bits/dim aparece en el diagrama de análisis del artículo. Esta es la unidad de la probabilidad logarítmica negativa dividida por las dimensiones de la imagen. Cuanto menor sea el índice, mejor será el rendimiento del modelo. La probabilidad logarítmica negativa es igual al número promedio de bits necesarios para la compresión sin pérdidas utilizando un esquema de codificación entrópica.

La probabilidad logarítmica discreta total está normalizada por la dimensionalidad de las imágenes (por ejemplo, 32 × 32 × 3 = 3072 para CIFAR-10). Estos números se pueden interpretar como el número de bits que un esquema de compresión basado en este modelo necesitaría para comprimir cada valor de color RGB.

Referencia:《Redes neuronales recurrentes de píxeles》

Notas en papel Síntesis de imágenes de alta resolución con modelos de difusión latente