Difusión bi-ruido: hacia modelos de difusión condicional con antecedentes de restauración generativa

Difusión bi-ruido: hacia modelos de difusión condicional con antecedentes de restauración generativa (lectura en papel)

Kangfu Mei, Universidad Johns Hopkins, EE. UU., arXiv, Citado: 0, Código , Papel .

prefacio

El modelo de probabilidad de difusión condicional puede modelar la distribución de imágenes naturales y puede generar diferentes muestras reales según las condiciones dadas. Sin embargo, sus resultados son a menudo poco realistas en términos de cambios de color y texturas observables. Argumentamos que este problema es causado por la discrepancia entre la distribución de probabilidad aprendida por el modelo y la distribución natural de la imagen. Las condiciones sutiles amplían gradualmente la divergencia durante cada paso de tiempo de muestreo. Para abordar este problema, presentamos un método novedoso que utiliza un modelo de difusión incondicional preentrenado para traer muestras de predicción a la variedad de datos de entrenamiento. El modelo incondicional actúa como regularizador y reduce la divergencia introducida por el modelo condicional en cada paso de muestreo. Realizamos experimentos exhaustivos para demostrar la eficacia de nuestro método en tareas de superresolución, colorización, eliminación de turbulencias y eliminación de ruido de imágenes. Las mejoras obtenidas por nuestro método muestran que los previos se pueden usar como un complemento general para mejorar los modelos de difusión condicional.

2. Pensamiento holístico

Este documento encontró a través de experimentos que el modelo de difusión condicional es similar al método SR3, y el eliminador de ruido entrenado introducirá ruido adicional. Debido a que este eliminador de ruido agrega condiciones, lo que aprende este eliminador de ruido no es un previo de imágenes naturales. Por lo tanto, en este artículo, se utilizan dos modelos de difusión (condicional e incondicional) para incorporar el previo de eliminación de ruido rico incondicional en el condicional. El método específico es obtener x ^ 0 \hat x_{0} en el modelo de difusión condicional en cada paso de tiempo de difusión intermedioX^0La estimación aproximada de , luego usa el proceso de difusión directa para muestrear la estimación al paso de tiempo actual y finalmente usa el modelo de difusión incondicional para la difusión inversa.

3. Método

En esta sección, discutimos el mecanismo propuesto para agregar incrustaciones previas a los modelos de difusión. Por consistencia, denotamos la salida intermedia del modelo de difusión incondicional como ϵ θ ( ⋅ ) \epsilon_{\theta}(\cdot)ϵi( ) , use θ \thetaen la siguiente discusión del modelo de probabilidad de difusión de eliminación de ruido (DDPM)θ parametrización. El modelo de difusión condicional adicional conf ϕ ( ⋅ ) f_{\phi}(\cdot)Fϕ( ) significa que los pares de imágenes condicional (es decir, imagen degradada) y natural están representados pory 0 , x 0 y_{0}, x_{0}y0,X0Representa; que tiene el parámetro ϕ \phiEl modelo de difusión condicional de ϕ f ϕ ( ⋅ ) f_{\phi}(\cdot)Fϕ( ) representa el paso de tiempottConcat condición y en t 0 y_{0}y0Para imagen de ruido xt x_{t}Xtpara eliminar el ruido.

En los experimentos de este documento, denotamos un modelo de difusión reciente con aprendizaje condicional para optimizar el proceso de difusión como Aprendizaje para refinar el proceso de difusión (LRDP). LRDP modela la distribución condicional de imágenes limpias a partir de imágenes degradadas para el aprendizaje de recuperación, por lo que requiere capacitación separada para diferentes tareas o conjuntos de datos. El objetivo de este proceso de aprendizaje es el siguiente:
L vlb = E t ∼ [ 1 , T ] , ϵ ∼ N ( 0 , I ) [ ∣ ∣ ϵ − ϵ θ ( y 0 , xt , t ) ∣ ∣ 2 ] L_ {vlb} = E_{t \sim [1, T], \epsilon \sim N(0,I)}[||\epsilon-\epsilon_{\theta}(y_{0}, x_{t}, t )|| ^{2}]Lvlb _ _=mit [ 1 , T ] , ϵ norte ( 0 , yo )[ ∣∣ ϵϵi( y0,Xt,t ) 2 ]
aquíxt x_{t}Xtobtenidos por el proceso de pre-difusión. LRDP debe volver a capacitarse desde cero para diferentes tareas de recuperación, lo que aumenta aún más el costo de capacitación. Los experimentos encontraron que sin y 0 y_{0}y0Dicho protocolo reduce la calidad visual resultante en comparación con el protocolo condicional. La suposición más directa para la degradación del rendimiento es que, debido a la ambigüedad del modelo de degradación, el supuesto posterior p ( y 0 ∣ x 0 ) p(y_{0}|x_{0})p(y0x0) Defina la funciónp θ ( x 0 ∣ y 0 ) ∝ p θ ( x 0 ) p θ ( y 0 ∣ x 0 ) p_{θ}(x_{0}|y_{0}) \propto p_{θ} (x_{0})p_{θ}(y_{0}|x_{0})pagi( X0y0)pagi( X0) pagi( y0x0) para comparar. Por lo tanto, afirmamos que descomponer el proceso de generación de difusión en diferentes protocolos debería ser un enfoque más prometedor para la tarea de restauración.

3.1 Proceso de acondicionamiento por difusión (CDP)

Dichos métodos generalmente optimizan las variables ocultas del proceso de muestreo, de la siguiente manera (poner yyreemplazar y con xxx lectura), dondeσ ( ⋅ ) \sigma(\cdot)σ ( ) es la función de transición de umbral estricto, cuyo objetivo es combinary 0 y_{0}y0y xt − 1 x_{t-1}Xt 1para la restauración exacta. Como ILVR.

inserte la descripción de la imagen aquí

3.2 Prioridades de difusión implícitas de retroalimentación de errores

Dado que el modelo de difusión sigue un proceso de serie temporal, los errores y los artefactos visuales en cada paso se propagan y acumulan, degradando gravemente la calidad de algunos resultados de CDP. Sin embargo, estos problemas rara vez se observan en los modelos de difusión incondicional. Argumentamos que esta discrepancia surge del condicionamiento que rompe la distribución de probabilidad inherente del ruido en cada paso de tiempo de muestreo, lo que hace que se desvíen de la variedad de imágenes naturales. Por lo tanto, proponemos aplicar priorizaciones generativas integradas en el modelo incondicional preentrenado para regularizar el ruido predicho en cada paso de tiempo del modelo condicional . El método específico es entrenar dos modelos de difusión, el condicional f ϕ ( ⋅ ) f_{\phi}(\cdot)Fϕ( ) y la incondicionalϵ θ ( ⋅ ) \epsilon_{\theta}(\cdot)ϵi( ) . Aquí hay un ejemplo del primer paso del muestreo, dada la distribución gaussiana aleatoria inicialxt x_{t}Xtestimado x 0 x_{0}X0, observe que estimamos con un eliminador de ruido condicional:
x ~ 0 = ( xt − 1 − α ˉ tf ϕ ( y 0 , xt , t ) ) / α ˉ t \tilde x_{0} = (x_{t} - \ sqrt{1-\bar \alpha_{t}}f_{\phi}(y_{0}, x_{t},t)) / \sqrt{\bar \alpha_{t}}X~0=( Xt1aˉt Fϕ( y0,Xt,t )) /aˉt
Entonces, estimamos condicionalmente x ~ 0 \tilde x_{0}X~0Propagar hacia adelante al paso actual:
q ( xt ′ ∣ x ~ 0 ) : = xt ′ = α ˉ tx ~ 0 + 1 − α ˉ t ϵ , ϵ ∼ N ( 0 , I ) q(x_{t}'| \tilde x_{0}):=x_{t}'=\sqrt{\bar \alpha_{t}}\tilde x_{0}+ \sqrt{1-\bar \alpha_{t}}\epsilon,\ ,\epsilon\sim N(0,I)q ( ​​xt′′X~0):=Xt′′=aˉt X~0+1aˉt , _ϵnorte ( 0 ,I ) Note el xt ′ x_{t}’
aquíXt′′y xt x_{t}Xtno es lo mismo que xt x_{t}Xtes una variable latente en el modelo de difusión incondicional. Se puede considerar que este proceso agrega nuevo ruido, que es instructivo, es decir, condiciones. Luego muestreamos usando el modelo de difusión incondicional:
xt − 1 = 1 α t ( xt ′ − 1 − α t 1 − α ˉ t ϵ θ ( xt ′ , t ) ) + σ tz (4) x_{t-1} =\frac{1}{\sqrt{\alpha_{t}}}(x_{t}'-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t }}}\epsilon_{\theta}(x_{t}',t))+\sigma_{t}z\tag{4}Xt 1=at 1( Xt′′1aˉt 1atϵi( Xt′′,t ))+pagtz( 4 )

4. Experimenta

  1. Restauración condicional de imágenes entrenada en el conjunto de datos FFHQ [30] (70000 imágenes) y evaluada en el conjunto de datos CelebA HQ (primeras 3000 imágenes) (resolución 256 × 256 píxeles).
  2. La restauración de imagen condicional es una superresolución facial de 4 × entrenada en el conjunto de datos FFHQ y evaluada en el conjunto de datos CelebA HQ (primeras 3000 imágenes) con una resolución de 256 × 256 píxeles.
  3. Eliminación de lluvia en el conjunto de datos Rain800 y el conjunto de datos Jorder 200L y sus respectivos conjuntos de entrenamiento. La resolución del modelo de difusión es de 256 × 256 píxeles.

Tenga en cuenta que para las dos primeras tareas, el modelo de difusión se entrena en el conjunto de datos FFHQ para la generación de rostros. Para la última tarea, se entrena un modelo de difusión en el conjunto de datos de ImageNet para la generación de imágenes naturales.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_43800752/article/details/129959433
Recomendado
Clasificación