DR2: Robusto eliminador de degradación basado en difusión para la restauración de rostros ciegos

DR2: Eliminador de degradación robusto basado en difusión para la restauración de rostros ciegos (Lectura en papel)

Zhixin Wang, Universidad Jiao Tong de Shanghái, CH, CVPR2023, Citado:0, Código , Papel

1. Introducción

inserte la descripción de la imagen aquí
La pintura tradicional de rostros ciegos generalmente usa modelos de degradación predefinidos para sintetizar datos degradados de baja calidad para el entrenamiento, mientras que pueden surgir situaciones más complejas en el mundo real. La brecha entre el modelo de degradación asumido y la situación real afectará el efecto de repintado y, a menudo, aparecen artefactos en los resultados de salida. Sin embargo, es costoso e inviable incluir todo tipo de degradación en los datos de entrenamiento para cubrir la situación real. Para abordar este problema de robustez, proponemos un Robust Degradation Remover (DR2) basado en difusión, que primero convierte las imágenes degradadas en predicciones aproximadas pero que no varían con la degradación, y luego utiliza un módulo de aumento para restaurar las predicciones aproximadas en imágenes de alta calidad. Al utilizar modelos probabilísticos de difusión de eliminación de ruido bien realizados, nuestro DR2 difunde la imagen de entrada en un estado ruidoso con ruido gaussiano, varios tipos de degradaciones se transforman en ruido gaussiano y luego captura información semántica a través de un paso iterativo de eliminación de ruido. Por lo tanto, DR2 es resistente a las degradaciones comunes, como el desenfoque, el cambio de tamaño, el ruido y la compresión, y es compatible con módulos de mejora de diseño diferente. Los experimentos en varios entornos demuestran que nuestro marco supera los métodos de última generación en conjuntos de datos sintéticos y del mundo real muy degradados.

2. Pensamiento holístico

El efecto de muestreo de ILVR es promedio, y este artículo es una mejora en su método. Permítanme hablar sobre los resultados primero. Siento que los resultados de las pruebas son muy promedio, y el tipo innovador también es promedio. Nadie le presta atención en Git. No sé por qué se puede emitir CVPR. Es suerte. La idea general es controlar la cantidad de pasos de eliminación de ruido para truncar y luego usar una red mejorada para mejorar la imagen estimada (muy suave).

3. Método

El marco holístico de pintura de caras ciegas DR2E consta de un eliminador de degradación robusto basado en difusión (DR2) y un módulo de mejora (E). En la primera etapa, DR2 transforma la imagen degradada en resultados intermedios ásperos, suaves y visualmente claros pertenecientes a una distribución invariante degenerada (columna 4 en la Fig. 1). En la segunda etapa, la imagen invariante de degradación se procesa más a través de un módulo de mejora para obtener detalles de alta calidad. Con este diseño, el módulo de mejora es compatible con el diseño de varios métodos de restauración en busca de la mejor calidad de restauración, asegurando que nuestro DR2E sea robusto y de alta calidad. La primera etapa es bajar de yy a yyObtener imagen estimadax ^ 0 \hat x_0 en yX^0, y en la segunda etapa se aumenta la imagen estimada con el objetivo de maximizar la siguiente probabilidad:
p ψ , ϕ = ∫ p ψ ( x ∣ x ^ 0 ) p ϕ ( x ^ 0 ∣ y ) dx ^ 0 = E x ^ 0 ∼ pags ϕ ( x ^ 0 ∣ y ) [ pags ψ ( x ∣ x ^ 0 ) ] (1) \begin{alineado} p_{\psi,\phi}&=\int p_{\psi} (x |\sombrero x_0)p_\phi(\sombrero x_0|y)d \sombrero x_0 \tag{1} \\ &=\mathbb{E}_{\sombrero x_0 \sim p_\phi(\sombrero x_0|y) }[p_\psi(x|\hat x_0)] \end{alineado}pagψ , ϕ=pagpag( X X^0) pagϕ(X^0y ) reX^0=miX^0pagϕ(X^0y )[ pagpag( X X^0) ]( 1 )
Entre ellos,p ϕ ( x ^ 0 ∣ y ) p_\phi(\hat x_0|y)pagϕ(X^0y ) corresponde al modelo de recuperación,p ψ ( x ∣ x ^ 0 ) p_\psi(x|\hat x_0)pagpag( X X^0) corresponde al módulo de mejora. Para la primera etapa, hacemos una suposición importante y proponemos un método basado en la difusión para eliminar la degradación, en lugar de aprender directamente deyyy axxEl mapeo de x (generalmente involucra un modelo de degradación predefinidozzz)。

3.1 Eliminación de la degradación basada en la difusión

Hipótesis: En el proceso de difusión, existe un paso intermedio τ \tauτ,且t > τ t>\taut>τ , entonces existeq ( xt ∣ x ) q(x_t|x)q ( ​​xtx )q ( yt ∣ y ) q(y_t|y)q ( ​​yty ) está cerca en la parte de baja frecuencia, además, hayω > τ \omega > \tauVaya>τ መለq ( x ω ∣ x ) ≈ q ( x ω ∣ x ) q(x_\omega|x)\approx q(x_\omega|x)q ( ​​xVaya∣x ) _q ( ​​xVayax ) , esta suposición significa que agrega ruido al proceso directo y destruye los componentes de frecuencia de la imagen, y el mapa de ruido también es visualmente indistinguible para ciertos componentes de frecuencia, pero esta suposición no es lo suficientemente fuerte, solo cuando el ruido es lo suficientemente fuerte. De acuerdo con este supuesto podemos obtener:
p ϕ ( x ^ 0 ∣ y ) = ∫ p ( x ^ 0 ∣ x τ ) p ( x τ ∣ y ω ) p ( x ω ∣ y ) dx τ dy ω ≈ ∫ p ( x ^ 0 ∣ x τ ) pags ( x τ ∣ x ω ) pags ( x ω ∣ x ) dx τ dx ω \begin{alineado} p_\phi(\hat x_0|y)&=\int p_(\hat x_0 |x_\tau)p(x_\tau|y_\omega)p(x_\omega|y)d x_\tau dy_\omega \\ & \approx \int p_(\hat x_0|x_\tau)p( x_ \tau|x_\omega)p(x_\omega|x)d x_\tau dx_\omega \end{alineado}pagϕ(X^0y )=pag(X^0xt) p ( xtyVaya) p ( xVayay ) re xtdy _Vayapag(X^0xt) p ( xtxVaya) p ( xVayax ) re xtd xVaya

  1. En ω \omegaCondición de inicialización en ω : la imagen degradadayyy obtiene x a través del proceso directo del modelo de difusión: = y ω x:=y_\omegaX:=yVaya
  2. Realice un proceso de difusión inversa para obtener xt − 1 x_{t-1}Xt 1,使用(τ + 1 ≤ t ≤ ω \tau+1 \le t \le \omegat+1tω ), mientras que la imagen degradadayyy realiza un proceso de muestreo directo para obteneryt − 1 y_{t-1}yt 1. Por suposición, reemplazamos xt − 1 x_{t-1}Xt 1La parte de baja frecuencia es yt − 1 y_{t-1}yt 1. Igual que ILVR .
  3. En τ \tauEl paso τ truncó la salida: cuandottA medida que t se vuelve más pequeño, la intensidad del ruido se vuelve moderada yq ( xt ∣ x ) q(x_t|x)q ( ​​xtx )q ( yt ∣ y ) q(y_t|y)q ( ​​yty ) se hará gradualmente más grande, por lo que el proceso de eliminación de ruido debe realizarse enttLa etapa se realiza cuando t es lo suficientemente pequeño. Nosotros directamente en elτ \tauτ pasos estimadosx 0 x_0X0

3.2 Mejora de la imagen

Para la salida de DR2, la recuperación de detalles de alta calidad solo necesita entrenar el módulo de mejora p ψ ( x ∣ x ^ 0 ) p_\psi(x|\hat x_0)pagpag( X X^0) . Aquí, no hacemos suposiciones sobre la metodología o arquitectura específica de este módulo. Cualquier red neuronal que se pueda entrenar para mapear imágenes de baja calidad a imágenes de alta calidad se puede conectar a nuestro marco. Y el módulo de aumento se entrena de forma independiente con la función de pérdida propuesta.

4. Experimenta

Las implementaciones de DR2 y los módulos de aumento se entrenan de forma independiente en el conjunto de datos FFHQ, que contiene 70 000 imágenes de rostros de alta calidad. Usamos el DDPM preentrenado propuesto por ILVR para nuestro DR2. Elegimos SPARNetHD y VQFR como dos arquitecturas alternativas para el módulo de aumento.

4.1 Comparación de indicadores y visualización

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_43800752/article/details/130807479
Recomendado
Clasificación