Introducción al modelo de difusión

Referencia: Modelo de difusión - Modelo de difusión - Blog CSDN ; Comprender el modelo de difusión de básico a profundo - Zhihu ; https://arxiv.org/abs/2308.09388

1. Información general

El modelo de difusión es un modelo generativo. Se puede utilizar para tareas de generación visual, como superresolución de imágenes, eliminación de desenfoque, eliminación de artefactos JPEG, eliminación de sombras, eliminación de niebla/neblina/lluvia, etc.
Los modelos de difusión se dividen en procesos directos (difusión) y procesos inversos. El proceso directo agrega gradualmente ruido píxel a píxel a la imagen hasta que la imagen satisface el ruido gaussiano; el proceso inverso reconstruye la imagen mediante la eliminación de ruido.
Hay muchos tipos de modelos de difusión, el más común es el modelo de probabilidad de difusión de eliminación de ruido ( DDPM ).

2. Proceso de avance

El proceso de avance es un proceso de agregar ruido paso a paso, por lo que cada momento solo está relacionado con el momento anterior. Por lo tanto, el proceso directo se puede parametrizar como una cadena de Markov: $q(x_t|x_{t-1}) =\mathcal{N}(x_t;\sqrt{1-\beta_t}\cdot x_{t-1},\beta_tI)$ donde $x_0\sim p_\text{datos}(x)$ es el punto de datos de entrenamiento, $x_1,\cdots,x_T$ Para los datos después de agregar ruido gradualmente, $\beta_t$ Son parámetros predefinidos.
Usando la técnica de parámetros pesados, podemos obtener $x_t=\sqrt{1-\beta_t}x_{t-1}+\sqrt{\beta_t}z_t$ . Recurre y combina variables aleatorias independientes $z_1,z_2,\cdots,z_t$ Combinadas en variables aleatorias $\epsilon que obedecen a la distribución normal estándar$ ，可得 $x_t=\sqrt{\hat{\alpha}_t}x_0+\sqrt{1-\hat{\alpha}_t}\epsilon$ . Por tanto, según $x_0$ Calcular $x_t$ Distribución de probabilidad de: $q(x_t|x_0)=\mathcal{N}(x_t;\sqrt {\hat{\alpha}_t}\cdot x_0,(1-\hat{\alpha}_t)\cdot I)$ 其中 $\alpha_t=1-\beta_t,\hat{\alpha}_t=\prod_{i=1}^t\alpha_i$ . Cuando $Cuando T$ es lo suficientemente grande, $\hat{\alpha}_t$ tiende a 0, $x_T$ La distribución es aproximadamente la distribución normal estándar $\pi(x_T)\sim\mathcal{N}(0,I)$ 。

3. Proceso inverso

El procedimiento inverso recupera la distribución de datos del ruido gaussiano aproximando la distribución posterior: $(x_{t-1}|x_t,x_0)=\mathcal{N}(x_{t-1};\tilde{\mu}_t(x_t,x_0),\tilde{\beta}_tI)$ 其中 $\tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\hat{\alpha}_{t-1} }\beta_t}{1-\hat{\alpha}_t}x_0+\frac{\sqrt{\hat{\alpha}_t}(1-\hat{\alpha}_{t-1})}{1- \hat{\alpha}_t}x_t=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\hat{\alpha}_t}}\epsilon) ,\epsilon\sim\mathcal{N}(0,I)$ $\tilde{\beta}_t=\frac{1-\hat{\alpha}_{t-1}}{1-\ sombrero{\alpha}_t}\beta_t$ Dado que $\beta_t$ está predefinido, solo necesitamos usar la red de eliminación de ruido $\epsilon_\theta(x_t,t)$ estimación $\epsilon$ , obteniendo así la media $\mu_\theta(x_t,t)=\tilde{\mu}_t(x_t,x_0)$ 。

4. Entrenamiento

Ecuaciones invariantes en $\mathcal{L}_\ text{simple }=\mathbb{E}_{t,x_0,\epsilon}[\|\epsilon-\epsilon_\theta(\sqrt{\hat{\alpha}_t}\cdot x_0+\epsilon\sqrt{1 -\hat {\alpha}_t},t)\|_2^2$ La expectativa de la fórmula anterior se obtiene para los datos, el ruido y el tiempo, por lo que al calcular realmente la pérdida, es necesario muestrear los datos, el ruido y el tiempo.

El proceso de entrenamiento del modelo de difusión es el siguiente:

$x_0$ del conjunto de entrenamiento $X$ ；

从 $\{1,2,\cdots,T\}$ Muestreo aleatorio uniforme $t$ ；

Ruido de muestreo $\epsilon de una distribución normal estándar$ ；

La función $\|\epsilon-\epsilon_\theta(\sqrt{\hat{\alpha}_t}\cdot x_0+ \epsilon\sqrt{1-\hat{\alpha}_t},t)\|_2^2$ Como función de pérdida, se realiza la retropropagación.

5. Inferencia (muestreo)

El modelo de difusión se infiere del ruido gaussiano $x_T$ , utilizando el ruido estimado por la red $\epsilon_\theta(x_t,t)$ Calcula la media del momento anterior según la fórmula en 3 (para la varianza, DDPM considera $\sigma^ 2_t=\ tilde{\beta}_t=\frac{1-\hat{\alpha}_{t-1}}{1-\hat{\alpha}_t}\beta_t\approx\beta_t$ ), invirtiendo así los datos originales $x_0$ 。

El proceso de inferencia del modelo de difusión es el siguiente:

$x_T$ de la distribución normal estándar $X$ ；

De $t = A partir de T$ , se lleva a cabo el siguiente proceso (es decir, el proceso inverso del modelo de difusión) hasta $t = 1$ :
de la distribución normal estándar $z$ ；
计算 $x_{t-1}=\frac{1}{\sqrt{\alpha_t} }(x_t-\frac{\beta_t}{\sqrt{1-\hat{\alpha}_t}}\epsilon_\theta(x_t,t))+\sigma_tz$ ；

$t = 1$ , determina $x_0=\frac{1}{\sqrt{\alpha_1}}(x_1-\frac { \beta_1}{\sqrt{1-\hat{\alpha}_1}}\epsilon_\theta(x_1,1))$

6. Modelo de difusión condicional

Dado que el proceso de inferencia del modelo anterior no tiene señal de entrada, los datos generados no tienen restricciones y el usuario no tiene control sobre los resultados generados. La introducción de condiciones puede sesgar los datos generados hacia los resultados esperados por el usuario.
Hay muchas maneras de introducir condiciones. Por ejemplo, para tareas de generación de imágenes, se puede introducir un clasificador para guiar el modelo de difusión, y su gradiente se puede usar para guiar la generación de imágenes para sesgar una semántica específica, de modo que el modelo pueda generar las imágenes correspondientes con una etiqueta. También puede ingresar imágenes o texto para guiar la generación de imágenes.