[Lectura intensiva en papel StyleGAN2 CVPR_2020] Análisis y mejora de la calidad de imagen de StyleGAN

I. Introducción

[Papel] > Versión oficial de TensorFlow [Código] > Versión de Pytorch [Código] > [Proyecto]
Este blog es una lectura intensiva en chino del artículo StyleGAN2. Espero que sea útil para que todos comprendan completamente el generador StyleGAN2.
Tubería:

  1. En primer lugar, dado que la operación AdaIN producirá artefactos de gotas de agua, la solución es rediseñar el paso de normalización. Vea la Figura 2 para más detalles.
  2. 修改包括Demodulación de peso, Regularización perezosa, Regularización de longitud de ruta, Sin crecimiento, nuevo arco G & D, Redes grandes (StyleGAN2)。

Abstracto

背景:La arquitectura GAN basada en estilos (StyleGAN) produce resultados de vanguardia en el modelado de imágenes generativas incondicionales basadas en datos.
方法:Exponemos y analizamos varios de sus artefactos característicos y proponemos cambios en la arquitectura del modelo y el método de entrenamiento para abordarlos.
En particular, rediseñamos la normalización del generador, revisamos el crecimiento asintótico y regularizamos el generador para fomentar un buen acondicionamiento en el mapeo de códigos latentes a imágenes.
Además de mejorar la calidad de la imagen, este regularizador de la longitud de la ruta brinda el beneficio adicional de que el generador se vuelve más fácil de invertir.
Esto hace posible atribuir de manera confiable las imágenes generadas a redes específicas.
Además, visualizamos qué tan bien el generador utiliza su resolución de salida e identificamos los problemas de capacidad, lo que nos motiva a entrenar modelos más grandes para obtener mejoras de calidad adicionales.
总结:En general, nuestro modelo mejorado redefine el estado del arte en el modelado de imágenes incondicionales, incluidas las métricas de calidad de distribución existentes y la calidad de imagen perceptual.

1. Introducción

La resolución y la calidad de las imágenes generadas por métodos generativos, especialmente las redes antagónicas generativas (GAN) [13], están mejorando rápidamente [20, 26, 4].
El método de vanguardia actual para la síntesis de imágenes de alta resolución es StyleGAN [21], que ha demostrado que funciona de manera confiable en varios conjuntos de datos.
Nuestro trabajo se centra en corregir sus artefactos característicos y mejorar aún más la calidad del resultado.

La característica distintiva de StyleGAN {Karras2018} es su arquitectura de generador poco convencional.
red de mapeo fff no es solo código latente de entradaz ∈ Z \mathrm{z} \in \mathcal{Z}zZ se alimenta al comienzo de la red, pero primero se transforma en un código latente intermediow ∈ W \mathrm{w} \in \mathcal{W}ww _ Luego, la transformación afín genera estilos y controla la red de síntesis gg
a través de la normalización de instancias adaptables (AdaIN) {Huang2017, Dumoulin2016, Ghiasi2017, Dumoulin2018}capas de g .
Además, la variación estocástica se facilita proporcionando un mapa de ruido aleatorio adicional a la red sintética.
Se ha demostrado {Karras2018, Shen2019} que este diseño permite un espacio latente intermedioW \mathcal{W}W que el espacio latente de entradaZ \mathcal{Z}Z está mucho menos enredado.
En este artículo, enfocamos todo el análisis solo enW \mathcal{W}W porque es el espacio latente relevante desde la perspectiva de la red sintética.

Muchos observadores han notado artefactos característicos en las imágenes generadas por StyleGAN {Bergstrom2019}.
Identificamos dos causas de estos artefactos y describimos los cambios en las arquitecturas y los métodos de entrenamiento que los eliminan.
Primero , investigamos el origen de los artefactos moteados comunes y descubrimos que los generadores los crean para eludir los defectos de diseño en sus arquitecturas.
En la Sección 2, rediseñamos la normalización utilizada en el generador para que se eliminen los artefactos.
En segundo lugar , analizamos los artefactos asociados con el crecimiento progresivo {Karras2017}, que es muy exitoso para estabilizar el entrenamiento GAN de alta resolución.
Proponemos un diseño alternativo que logra el mismo objetivo: el entrenamiento comienza centrándose en imágenes de baja resolución, luego cambia gradualmente el enfoque a resoluciones cada vez más altas, sin cambiar durante el entrenamiento. Topología de red.
Este nuevo diseño también nos permitió inferir la resolución efectiva de las imágenes generadas, la cual resultó ser menor a la esperada, motivando el aumento de capacidad (Sección 4).

El análisis cuantitativo de la calidad de la imagen generada mediante métodos generativos sigue siendo un tema desafiante.
F re chet Fr\'echetF rmiˊ chetDistancia inicial (FID) {Heusel2017} mide la diferencia de densidad entre dos distribuciones en el espacio de características de alta dimensión del clasificador InceptionV3 {simonyan2014}.
Precisión y recuperación (P & RP\&RP & R ) {Sajjadi2018, Tuomas2019} proporciona visibilidad adicional al cuantificar explícitamente el porcentaje de imágenes generadas similares a los datos de entrenamiento y el porcentaje de datos de entrenamiento que se pueden generar, respectivamente.
Usamos estas métricas para cuantificar las mejoras.

FID 和P & RP\&RTanto P como R se basan en redes clasificatorias que se ha demostrado recientemente que se centran en la textura en lugar de la forma {Geirhos2018}, por lo que estas métricas no pueden capturar con precisión todos los aspectos de la calidad de la imagen.
Observamos que la métrica de longitud de ruta perceptual (PPL) {Karras2018}, introducida originalmente como una forma de estimar la calidad de la interpolación del espacio latente, está relacionada con la consistencia y la estabilidad de la forma.
Sobre esta base, regularizamos la red de síntesis para favorecer un mapeo fluido (Sección 3) y lograr una clara mejora en la calidad.
Para compensar su costo computacional, también proponemos realizar todas las regularizaciones con menos frecuencia, observando que esto se puede hacer sin comprometer la efectividad.

Finalmente, encontramos que proyectar imágenes en el espacio latente W \mathcal{W} usando el nuevo generador StyleGAN2 regularizado de longitud de rutaEl efecto de W es significativamente mejor que el StyleGAN original.
Esto facilita la atribución de las imágenes generadas a sus fuentes (Sección 5).

Nuestra implementación y modelo capacitado están disponibles en https://github.com/NVlabs/stylegan2 .

2. Eliminación de artefactos de normalización

inserte la descripción de la imagen aquí
Primero observamos que la mayoría de las imágenes generadas por StyleGAN exhiben artefactos típicos similares a gotas de agua.
Como se muestra en la Figura 1 , aunque la gota no sea obvia en la imagen final, todavía existe en el mapa de características intermedias del generador 1 .
Esta anomalía comienza a aparecer alrededor de una resolución de 64 × 64, aparece en todos los mapas de características y se intensifica gradualmente a resoluciones más altas.
La presencia de este artefacto de consistencia es desconcertante ya que el discriminador debería poder detectarlo.

Localizamos el problema en la operación AdaIN, que normaliza la media y la varianza de cada mapa de características por separado, destruyendo potencialmente cualquier información encontrada en los tamaños relativos de estas características.
Nuestra hipótesis es que los artefactos de gotitas son el resultado de que el generador infiltre intencionalmente información sobre la intensidad de la señal después de la normalización de la instancia: al crear un pico fuerte, localizado y dominante, el generador puede escalar la señal de manera efectiva en otros lugares.
Nuestra hipótesis está respaldada por el hallazgo de que los artefactos de gotas de agua desaparecen por completo cuando se elimina el paso de normalización del generador.

2.1. Arquitectura del generador revisada

inserte la descripción de la imagen aquí

Rediseñamos la arquitectura de la red sintética StyleGAN.
(a) Estilo GAN original, donde A \boxed{A}Asignifica de W \mathcal{W}La transformación afín aprendida por W produce estilos, mientras que B \boxed{B}Bes una operación de emisión de ruido.
(b) La misma figura con todos los detalles. Aquí, descomponemos AdaIN en normalización explícita seguida de modulación, las cuales operan en la media y la desviación estándar de cada mapa de características. También anotamos los pesos aprendidos ( www ), desviación (bbb ) y entrada constante (ccc ), y vuelva a pintar los cuadros grises para que cada cuadro active un estilo. La función de activación (ReLU con fugas) siempre se aplica inmediatamente después de agregar el sesgo.
(c) Hemos hecho algunas modificaciones al esquema original que se justifican en el texto. Eliminamos algunas operaciones redundantes al principio,bbbB \boxed{B}BLa adición de σ se mueve fuera de la región activa del estilo y ajusta solo la desviación estándar de cada mapa de características.
(d) La arquitectura modificada nos permite reemplazar la normalización de instancias con una operación de "demodulación", que aplicamos a los pesos asociados con cada capa convolucional.

Primero modificaremos varios detalles del generador StyleGAN para facilitar mejor nuestra regularización rediseñada.
En términos de medidas de calidad, estos cambios en sí mismos tienen efectos positivos neutrales o pequeños.

La Figura 2a muestra la red sintética StyleGAN original ggg [21],en la Figura 2b, expandimos el diagrama con todo detalle mostrando los pesos y sesgos, y descomponiendo la operación AdaIN en dos componentes: normalización y modulación.
Esto nos permite volver a dibujar los cuadros grises conceptuales para que cada cuadro gris represente una parte de la red donde un cierto estilo está activo (es decir, un "bloque de estilo").
Curiosamente, el StyleGAN original aplicó sesgo y ruido en los bloques de estilo, lo que provocó que su influencia relativa fuera inversamente proporcional al tamaño del estilo actual.
Observamos que se pueden obtener resultados más predecibles moviendo estas operaciones fuera del bloque de estilo, donde operan en datos normalizados.
Además, observamos que después de este cambio, es suficiente que la normalización y la modulación actúen solo sobre la desviación estándar (es decir, no se requiere la media).
La aplicación de sesgo, ruido y normalización a entradas constantes también se puede eliminar de forma segura sin obstáculos aparentes.
Esta variantese muestra en la Figura 2cy es el punto de partida para nuestra normalización rediseñada.

2.2. Revisión de la normalización de instancias

Una de las principales fortalezas de StyleGAN es la capacidad de controlar las imágenes generadas a través de la mezcla de estilos, es decir, alimentando diferentes w latentes a diferentes capas en el momento de la inferencia.
En la práctica, la modulación de estilo puede amplificar ciertos mapas de características en un orden de magnitud o más.
Para que la combinación de estilos funcione, debemos contrarrestar explícitamente esta amplificación por muestra; de lo contrario, las capas posteriores no podrán operar en los datos de manera significativa.

Si estamos dispuestos a sacrificar el control específico de la escala (ver video), simplemente podemos eliminar la normalización, eliminando así los artefactos y mejorando ligeramente la FID [22].
Ahora propondremos una mejor alternativa que elimina los artefactos y conserva la capacidad de control total.
La idea principal es basar la normalización en las estadísticas esperadas de los mapas de características entrantes, pero sin una aplicación explícita.

Recuerde que el bloque de estilo en la Figura 2c consta de modulación, convolución y normalización.
Comencemos considerando el efecto de la convolución modulada.
La modulación escala cada mapa de características de entrada de la convolución según el estilo entrante, y también se puede lograr escalando los pesos de la convolución:
wijk ′ = si ⋅ wijk , \begin{equation} w'_{ijk} = s_i \ cdot w_{ ijk}, \end{ecuación}wcoeficiente intelectual′′=syowjk,en ese wwwwa w'w'w son el peso original y el peso de modulación respectivamente,si s_isyocorresponde a la iiLa escala de los mapas de características de entrada i ,jjj ykk enumera el mapa de características de salida y la huella espacial de la convolución, respectivamente.

Ahora, el propósito de la normalización de instancias es esencialmente eliminar la influencia de s de las estadísticas del mapa de características de salida de convolución.
Creemos que este objetivo se puede lograr de manera más directa.
Suponga que las activaciones de entrada son variables aleatorias iid independientes e idénticamente distribuidas con desviación estándar unitaria.
Después de la convolución de modulación, la desviación estándar de la activación de salida es
σ j = ∑ i , kwijk ′ 2 , \begin{equation} \sigma_j = \sqrt{ { \underset{i,k}{ {}\displaystyle\sum{} }} {w'_{ijk}}^2}, \end{ecuación}pagj=yo k _wcoeficiente intelectual′′2 ,Es decir, salida L 2 L_2 por pesos correspondientesL2Escalado de normas. La normalización posterior tiene como objetivo restaurar la salida a la desviación estándar de la unidad.
De acuerdo con la Ecuación 2, si tomamos cada mapa de características de salida jjj escalado ("demodulación")1 / σ j 1/\sigma_j1/ pagj, esto se puede lograr.
Alternativamente, podemos convertirlo nuevamente en los pesos convolucionales:
wijk ′ ′ = wijk ′ / ∑ i , kwijk ′ 2 + ϵ , \begin{equation} w''_{ijk} = w'_{ijk} \bigg/ \sqrt{ {\underset{i,k}{ {}\displaystyle\sum{}}} {w'_{ijk}}^2 + \epsilon}, \end{ecuación}wcoeficiente intelectual"=wcoeficiente intelectual′′/yo k _wcoeficiente intelectual′′2+ϵ ,donde ϵ \epsilonϵ es una pequeña constante para evitar problemas numéricos.

Ahora hemos horneado todo el bloque de estilo en una sola capa convolucional cuyos pesos se ajustan de acuerdo con s usando la Ecuación 1 y la Ecuación 3 (Fig. 2d).
En comparación con la normalización de instancias, nuestra técnica de demodulación es débil porque se basa en suposiciones estadísticas de la señal en lugar del contenido real de los mapas de características.
Se ha utilizado ampliamente un análisis estadístico similar en los inicializadores de red modernos [12, 16], pero no sabíamos que se había utilizado antes en lugar de la normalización dependiente de los datos.
Nuestra demodulación también está relacionada con la normalización de peso [32], que realiza el mismo cálculo que reparametrizar tensores de peso.
Trabajos previos han encontrado que la normalización del peso es beneficiosa en el contexto del entrenamiento GAN [38].
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Nuestro nuevo diseño elimina los artefactos característicos ( Figura 3 ), al tiempo que conserva la capacidad de control total, como se muestra en el video adjunto.
FID no se ve afectado en gran medida ( Tabla 1, filas A, B ), pero hay un cambio significativo de precisión a recuperación.
Argumentamos que esto es generalmente deseable porque el recuerdo se puede convertir en precisión mediante el truncamiento, mientras que lo contrario no es cierto [22].
En la práctica, nuestro diseño se puede implementar de manera eficiente utilizando convoluciones agrupadas, como se detalla en el Apéndice B.
Para evitar tener que tener en cuenta las funciones de activación en la Ecuación 3, escalamos las funciones de activación para que conserven la varianza de señal esperada.

3. Calidad de imagen y suavidad del generador

Si bien las métricas de GAN como FID o Precision and Recall (P&R) capturan con éxito muchos aspectos del generador, todavía tienen ciertos puntos ciegos en términos de calidad de imagen.
Por ejemplo, consulte las Figuras 3 y 4 en el suplemento para ver una comparación de generadores con los mismos puntajes FID y P&R pero con una calidad general significativamente diferente. 2

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Observamos una correlación entre la calidad de la imagen percibida y la longitud de la ruta perceptual (PPL) [21], una métrica introducida originalmente en La distancia LPIPS promedio [44] se usa para cuantificar la suavidad del mapeo desde el espacio latente hasta la imagen de salida.
En referencia nuevamente a las Figuras 3 y 4 en el Suplemento, un PPL más pequeño (mapa generador más suave) parece correlacionarse con una calidad de imagen general más alta, mientras que otras medidas ignoran este cambio.
Figura 4 a través de la puntuación PPL de cada imagen en LSUN CAT, por w ∼ f ( z ) w \sim f(z)wEsta correlación se examina más de cerca muestreando el espacio latente alrededor de f ( z ) .
Una puntuación baja es, de hecho, una indicación de una imagen de alta calidad, y viceversa.
La Figura 5a muestrael histograma correspondiente y revela la cola larga de la distribución.
El PPL general del modelo es simplemente el valor esperado de la puntuación de PPL para cada imagen.
Siempre calculamos el PPL para toda la imagen, no Karras et al. [21] Usan un cultivo central más pequeño.

No es inmediatamente obvio por qué un PPL bajo se correlaciona con la calidad de la imagen.
Nuestra hipótesis es que, dado que el discriminador penaliza las imágenes rotas durante el entrenamiento, la forma más sencilla de mejorar para el generador es estirar de manera efectiva las regiones del espacio latente que producen buenas imágenes.
Esto dará como resultado que las imágenes de baja calidad se compriman en pequeñas regiones de espacio latente que cambian rápidamente.
Si bien esto mejora la calidad de salida promedio a corto plazo, las distorsiones acumuladas perjudican la dinámica de entrenamiento y, por lo tanto, la calidad de la imagen final.

Claramente, no podemos simplemente alentar el PPL mínimo, ya que esto conduciría al generador hacia una solución degenerada con recuperación cero.
En cambio, describimos un nuevo regularizador cuyo objetivo es lograr mapas generadores más fluidos sin esta deficiencia.
Dado que el término de regularización resultante es algo costoso de calcular, primero describimos una optimización general aplicable a cualquier técnica de regularización.

3.1. Regularización perezosa

Por lo general, una función de pérdida principal (p. ej., pérdida logística [13]) y un término de regularización (p. ej., R 1 R_1R1[25]) se escriben como una sola expresión y, por lo tanto, se optimizan simultáneamente.
Observamos que los términos de regularización se calculan con menos frecuencia que la función de pérdida principal, lo que reduce en gran medida su costo computacional y el uso general de la memoria.
La fila C de la Tabla 1 muestra que no se produce ningún daño cuando la regularización de R1 se realiza solo una vez cada 16 minilotes, y aplicamos la misma estrategia a nuestro nuevo regularizador. El Apéndice B proporciona detalles de implementación.

3.2. Regularización de la longitud de la ruta

Alentamos a W \mathcal{W}Un paso de tamaño fijo en W da como resultado cambios de magnitud fija distintos de cero en la imagen.
Podemos hacer esto dando pasos en direcciones aleatorias en el espacio de la imagen y observando el correspondientew \mathrm{w}w gradiente para medir empíricamente la desviación del ideal.
Independientementede w \mathrm{w}Independientemente de w o de la orientación del espacio de la imagen, todos estos gradientes deberían tener longitudes casi iguales, lo que sugiere que el mapeo del espacio latente al espacio de la imagen está bien condicionado {Odena2018}.

En un solo w ∈ W \mathrm{w} \in \mathcal{W}wEn W , el mapa generadorg ( w ) g(\mathrm{w})Propiedades de escala métrica local de g ( w ) : W ↦ Y \mathcal{W} \mapsto \mathcal{Y}WY consta de la matriz jacobianaJ w = ∂ g ( w ) / ∂ w \mathbf{J}_\mathrm{w} = {\parcial g(\mathrm{w})}/{\parcial \mathrm{w} }jw=g ( w ) / w capturas.
Por el deseo de preservar la longitud esperada del vector independientemente de la orientación, denotamos el regularizador como
E w , y ∼ N ( 0 , I ) ( ∥ J w T y ∥ 2 − a ) 2 , \begin{equation} \mathbb{E}_{\mathrm{w}, \mathrm{y} \sim \mathcal{N}(0, \mathbf{I})} \left(\left\lVert \mathbf{J}_\mathrm {w}^T \mathrm{y}\right\rVert_2 - a\right)^2, \end{ecuación}miw , y N ( 0 , yo )( jwTy 2un )2,donde y \mathrm{y}y es una imagen aleatoria con intensidades de píxeles normalmente distribuidas,w ∼ f ( z ) \mathrm{w}\sim f(\mathbf{z})wf ( z ),其中z \mathbf{z}z se distribuye normalmente. Mostramos en el Apéndice C que, en dimensiones altas, cuandoJ w \mathbf{J}_\mathrm{w}jwEn cualquier w \mathrm{w}Este prior se minimiza cuando w es ortogonal (en el contexto global).
Las matrices ortogonales conservan la longitud y no introducen aplastamiento a lo largo de ninguna dimensión.

Para evitar el cálculo explícito de la matriz jacobiana, usamos la identidad J w T y = ∇ w ( g ( w ) ⋅ y ) \mathrm{J}^{T}_\mathrm{w} \mathrm{y} = \ nabla_\mathrm{w} (g(\mathrm{w} )\cdot \mathrm{y})jwTy=w( gramo ( w )y ) , que se puede calcular de manera eficiente mediante la propagación hacia atrás estándar {Dauphin2015}.
constante_a se establece dinámicamente en la longitud ∥ J w T y ∥ 2 \lVert\mathrm{J}^{T}_\mathrm{w} \mathrm{y}\rVert_2 durante laoptimización∥J _wTy 2La media móvil exponencial a largo plazo de , que permite que la propia optimización encuentre una escala global adecuada.

Nuestro regularizador está estrechamente relacionado con el regularizador de sujeción jacobiano propuesto por Odena et al.{Odena2018}.
La diferencia real consiste en el hecho de que calculamos analíticamente el producto J w T y \mathrm{J}^{T}_\mathrm{w} \mathrm{y}jwTy , mientras que usan diferencias finitas para estimarJ w δ \mathbf{J}_\mathrm{w} \boldsymbol{\delta}jwδZ ∋ δ ∼ norte ( 0 , yo ) \mathcal{Z} \ni \símbolo de bola{\delta} \sim \mathcal{N}(0, \mathbf{I})Zdnorte ( 0 ,yo ) .
Cabe señalar que la normalización espectral {Miyato2018B} del generador {Zhang2018sagan} solo restringe el valor singular máximo y no tiene restricciones en otros valores, por lo que no necesariamente conduce a un mejor acondicionamiento.
Descubrimos que, además de nuestra contribución, habilitar la normalización espectral, o reemplazarla, siempre dañó la FID, como se detalla en el Apéndice E.

En la práctica, notamos que la regularización de la longitud de la ruta conduce a modelos de comportamiento más confiables y consistentes, lo que facilita la exploración de la arquitectura.
También observamos que los generadores más suaves son más fáciles de invertir (Sección 5).
La Figura 5b muestra que la regularización de la longitud de la ruta ajusta significativamente la distribución de las puntuaciones de PPL por imagen sin llevar los modos a cero.
Sin embargo, la fila D de la Tabla 1 señala la compensación entre FID y PPL en conjuntos de datos menos estructurados que FFHQ.

4. Revisión del crecimiento progresivo

inserte la descripción de la imagen aquí

El crecimiento progresivo [20] ha tenido mucho éxito en la estabilización de la síntesis de imágenes de alta resolución, pero presenta sus propios artefactos característicos.
El problema clave es que el generador que crece gradualmente parece tener una fuerte preferencia posicional por los detalles ; el video adjunto muestra que cuando las características, como los dientes o los ojos, deben moverse suavemente a lo largo de la imagen, pueden permanecer donde están antes de pasar a la siguiente preferencia. la posición no se mueve.
La Figura 6 muestra un artefacto relacionado.
Creemos que el problema es que en el crecimiento asintótico, cada resolución se usa temporalmente como una resolución de salida, lo que la obliga a producir el máximo detalle de frecuencia, lo que luego hace que la red entrenada tenga demasiadas frecuencias en las capas intermedias, lo que compromete la invariancia de cambio [43].
El Apéndice A muestra un ejemplo. Estos problemas nos llevaron a buscar una formulación alternativa que conserve los beneficios del crecimiento gradual sin este inconveniente.

4.1. Arquitecturas de red alternativas

Si bien StyleGAN utiliza un diseño simple de avance en el generador (red sintética) y el discriminador, hay mucho trabajo dedicado a investigar mejores arquitecturas de red.
Las conexiones de salto [29, 19], las redes residuales [15, 14, 26] y los métodos jerárquicos [6, 41, 42] también han demostrado tener mucho éxito en los métodos generativos.
Por lo tanto, decidimos reevaluar el diseño de red de StyleGAN y buscar una arquitectura que no requiera un crecimiento progresivo para producir imágenes de alta calidad.
inserte la descripción de la imagen aquí

La figura 7a muestra MSG-GAN [19], que utiliza varias conexiones de salto para conectar la resolución coincidente del generador y el discriminador.
El generador MSG-GAN se modifica para generar mipmaps [37] en lugar de imágenes, y también se calcula una representación similar para cada imagen real.
En la Figura 7b , simplificamos este diseño aumentando el muestreo y sumando las contribuciones de las salidas RGB correspondientes a diferentes resoluciones.
En el discriminador, alimentamos de manera similar la imagen reducida a cada bloque de resolución del discriminador.
Usamos filtrado bilineal en todas las operaciones de muestreo ascendente y descendente.
En la Figura 7c , modificamos aún más el diseño para usar las conexiones restantes. 3
Este diseño es similar a LAPGAN [6] sin el discriminador por resolución utilizado por Denton et al.

inserte la descripción de la imagen aquí
La Tabla 2 compara tres arquitecturas de generador y tres de discriminador: la red de avance original utilizada en StyleGAN, conexiones de salto y redes residuales, todas las cuales están entrenadas sin un crecimiento progresivo.
Se proporcionan FID y PPL para cada una de las 9 combinaciones.
Podemos ver dos tendencias generales: las conexiones de omisión en el generador mejoran en gran medida la PPL en todas las configuraciones, y las redes de discriminadores residuales benefician claramente a la FID.
Esto último quizás no sea sorprendente, ya que los discriminadores están estructurados de manera similar a los clasificadores, donde la estructura residual es una estructura útil conocida.
Sin embargo, las arquitecturas residuales son perjudiciales en los generadores; la única excepción es FID en los automóviles LSUN, cuando ambas redes son residuales.

Para el resto de este artículo, usamos un generador de saltos y un discriminador residual en lugar de un crecimiento asintótico. Esto corresponde a la configuración E en la Tabla 1, que mejora significativamente FID y PPL.

4.2. Uso de resolución

El aspecto clave del crecimiento progresivo que deseamos preservar es que el generador se enfocará inicialmente en características de baja resolución y luego cambiará lentamente su atención a los detalles más finos. La arquitectura de la Figura
7 permite que el generador genere primero imágenes de baja resolución que no se vean significativamente afectadas por las capas de alta resolución y luego cambie el enfoque a las capas de alta resolución a medida que avanza el entrenamiento.
Dado que esto no se aplica de ninguna manera, el generador solo lo hará cuando sea beneficioso.
Para analizar el comportamiento en la práctica, necesitamos cuantificar cuánto depende el generador de una resolución particular durante el entrenamiento.
inserte la descripción de la imagen aquí
Dado que el generador de saltos ( Fig. 7b ) forma imágenes sumando explícitamente los valores RGB de múltiples resoluciones, podemos estimar la importancia relativa de las capas correspondientes midiendo su contribución a la imagen final.
En la Figura 8a , representamos la desviación estándar de los valores de píxel producidos por cada capa TRGB en función del tiempo de entrenamiento.
Calculamos la desviación estándar de 1024 muestras aleatorias de w y la normalizamos para que sume 100%.

Al comienzo del entrenamiento, podemos ver que el nuevo generador de saltos se comporta como un crecimiento asintótico, ahora implementado sin cambiar la topología de la red.
Por lo tanto, es razonable esperar que la resolución más alta domine hacia el final del entrenamiento.
Sin embargo, la figura muestra que esto no sucede en la práctica, lo que sugiere que es posible que el generador no pueda "utilizar completamente" la resolución objetivo.
Para verificar esto, inspeccionamos manualmente las imágenes generadas y notamos que a menudo carecían de algunos de los detalles a nivel de píxeles presentes en los datos de entrenamiento; estas imágenes podrían describirse como versiones mejoradas de 512 2 imágenes en lugar de imágenes 1024 2 reales .

Esto nos lleva a plantear la hipótesis de que existe un problema de capacidad en nuestra red, lo que probamos duplicando los mapas de características en las capas de mayor resolución de ambas redes. 4
Esto hace que el comportamiento sea más como se esperaba: la Figura 8b muestra un aumento significativo en la contribución de la capa de resolución más alta, y la fila F de la Tabla 1 muestra una mejora significativa en FID y recuperación.
La última fila muestra que la StyleGAN básica también se beneficia de la capacidad adicional, pero su calidad sigue siendo mucho menor que la StyleGAN2.

inserte la descripción de la imagen aquí

La Tabla 3 compara StyleGAN y StyleGAN2 en cuatro categorías de LSUN, mostrando nuevamente mejoras claras en FID y un progreso significativo en PPL. Mayores aumentos en la escala pueden tener beneficios adicionales.

5. Proyección de imágenes al espacio latente

La inversión de la red sintética g es un problema interesante con amplias aplicaciones.
Manipular una imagen dada en el espacio de características latentes primero requiere encontrar un código latente w correspondiente.
Estudios previos [1, 9] han demostrado que los resultados mejoran si se elige un w individual para cada capa del generador, en lugar de encontrar un código latente común w.
El mismo enfoque [27] se utilizó en implementaciones de codificador anteriores.
Mientras expande el espacio latente de esta manera para encontrar una coincidencia más cercana a una imagen dada, también puede proyectar imágenes arbitrarias que no deberían tener una representación latente.
En cambio, nos enfocamos en encontrar códigos latentes en el espacio latente original no expandido, ya que estos códigos corresponden a imágenes que el generador podría producir.

Nuestro método de proyección difiere de los métodos anteriores en dos aspectos.
En primer lugar , para extraer de forma más completa el espacio latente, agregamos ruido reducido a la codificación latente durante la optimización.
En segundo lugar , también optimizamos las entradas de ruido aleatorio al generador StyleGAN, regularizándolas para asegurarnos de que no terminen transportando señales coherentes.
La regularización se basa en aumentar el coeficiente de autocorrelación del mapa de ruido para que coincida con el coeficiente de autocorrelación del ruido gaussiano unitario en múltiples escalas.
Los detalles de nuestro método de proyección se pueden encontrar en el Apéndice D.

La detección de imágenes manipuladas o generadas es una tarea no trivial. Actualmente, los métodos basados ​​en clasificadores pueden detectar imágenes generadas de forma bastante fiable, independientemente de su origen exacto [24, 39, 35, 45, 36]. Sin embargo, dado el rápido progreso de los métodos generativos, esta situación puede no durar. Además de la detección general de imágenes falsas, también podemos considerar una forma más limitada de este problema: poder atribuir imágenes falsas a su fuente específica [2]. Para StyleGAN, esto equivale a verificar si hay w ∈ W que resintetiza la imagen en cuestión.

5.1. Atribución de imágenes generadas

Detectar imágenes manipuladas o generadas es una tarea nada trivial.
Actualmente, los métodos basados ​​en clasificadores pueden detectar imágenes generadas de manera muy confiable, independientemente de su origen exacto {Li2018, Yu2018, Wang2019, artefactos Zhang2019gan, Wang2019b}.
Sin embargo, dado el rápido progreso de los métodos generativos, esto puede no durar.
Además de la detección general de imágenes falsas, también podemos considerar una forma más limitada del problema: poder atribuir imágenes falsas a su origen específico {Albright2019}.
Para StyleGAN, esto es equivalente a verificar si existe un w ∈ W \mathrm{w} \in \mathcal{W}wW para resintetizar la imagen en cuestión.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Medimos el éxito de la proyección calculando la distancia LPIPS{Zhang2018metric} entre la imagen original y la imagen resintetizada.
La fórmula es DLPIPS [ x , g ( g ~ − 1 ( x ) ) ] D_\mathrm{LPIPS}[\boldsymbol{x}, g(\tilde{g}^{-1}(\boldsymbol{x}) ) ]DLPIPS[ X ,gramo (gramo~1 (x))], dondex \boldsymbol{x}x es la imagen que se analizag ~ − 1 \tilde{g}^{-1}gramo~1 indica una operación de proyección aproximada.
La Figura 10 muestrahistogramas de estas distancias para los conjuntos de datos LSUN Car y FFHQ utilizando StyleGAN y StyleGAN2 originales, yla Figura 9 muestraproyecciones de ejemplo.
Las imágenes generadas usando StyleGAN2 se proyectan bien enW \mathcal{W}W , por lo que pueden atribuirse casi sin ambigüedades a las redes generativas.
Sin embargo, para el StyleGAN original, aunque técnicamente debería ser posible encontrar códigos latentes coincidentes, deW \mathcal{W}El mapeo de W a las imágenes parece demasiado complejo para tener un éxito fiable en la práctica.
Nos parece alentador que StyleGAN2 facilite mucho la atribución de la fuente, aunque la calidad de la imagen ha mejorado significativamente.

6. Conclusiones y trabajo futuro

Identificamos y solucionamos algunos problemas de calidad de imagen en StyleGAN, mejoramos aún más la calidad y mejoramos en gran medida el estado del arte en varios conjuntos de datos.
En algunos casos, estas mejoras se pueden ver más claramente en movimiento, como se muestra en el video adjunto.
El Apéndice A contiene más ejemplos de los resultados que se pueden obtener usando nuestro método.
A pesar de la calidad mejorada, StyleGAN2 facilita la atribución de las imágenes generadas a sus fuentes.

El rendimiento del entrenamiento también ha mejorado. Con una resolución de 1024× 2 , el StyleGAN original (configuración A en la Tabla 1) funciona a 37 imágenes por segundo en una GPU NVIDIA DGX-1 y 8 Tesla V100, mientras que nuestra configuración E funciona a 61 img/s, que es 40 % más rápido.
La mayor parte de la aceleración proviene del flujo de datos simplificado debido a la demodulación del peso, la regularización del retraso y la optimización del código.
StyleGAN2 (configuración F, red más grande) entrena a 31 img/s y, por lo tanto, es solo un poco más caro que el StyleGAN original.
Su tiempo total de entrenamiento es de 9 días FFHQ y 13 días LSUN CAR.

Todo el proyecto, incluida toda la exploración, consumió 132 MWh, de los cuales 0,68 MWh se utilizaron para entrenar el modelo FFHQ final. En total, utilizamos alrededor de 51 años de computación de una sola GPU (GPU de clase Volta). Vea el Apéndice F para una discusión más detallada.

En el futuro, la investigación sobre mejoras adicionales en la regularización de la longitud de la ruta puede dar sus frutos, por ejemplo, reemplazando las distancias L2 del espacio de píxeles con métricas de espacio de características basadas en datos.
Teniendo en cuenta el despliegue práctico de las GAN, creemos que es importante encontrar nuevas formas de reducir los requisitos de datos de entrenamiento.
Esto es especialmente importante en aplicaciones en las que no es factible obtener decenas de miles de muestras de entrenamiento y el conjunto de datos contiene una gran cantidad de variación intrínseca.


  1. En casos raros (quizás el 0,1% de la imagen), se pierde una gota, lo que da como resultado imágenes gravemente dañadas. Consulte el Apéndice A para obtener más detalles. ↩︎

  2. Creemos que la clave de esta aparente inconsistencia radica en la elección del espacio de funciones en lugar de la base de FID o P&R. Recientemente se descubrió que los clasificadores entrenados con ImageNet [30] tienden a basarse más en la textura que en la forma [10], mientras que los humanos se enfocan mucho en la forma [23]. Esto es relevante en nuestro contexto porque FID y P&R usan funciones de alto nivel de InceptionV3 [34] y VGG-16 [34] respectivamente, que están entrenados de esta manera y, por lo tanto, se espera que estén sesgados hacia la detección de texturas. En consecuencia, las imágenes con, por ejemplo, texturas fuertes de gatos pueden parecerse más entre sí de lo que los observadores humanos estarían de acuerdo, lo que compromete parcialmente las métricas basadas en la densidad (FID) y las métricas de cobertura múltiple (P&R). ↩︎

  3. En la arquitectura de red residual, la suma de las dos rutas da como resultado una multiplicación de la varianza de la señal, que multiplicamos por 1 / 2 1/\sqrt{2}1/2 para compensar esta variación. Esto es crucial para nuestra red, y en las redes de clasificación [15] este problema suele estar oculto por la normalización por lotes. ↩︎

  4. Duplicamos el número de mapas de características a una resolución de 64 2 -1024 2 mientras mantenemos constante el resto de la red. Esto aumenta el número total de parámetros entrenables en el generador en un 22% (25M → 30M) y en el discriminador en un 21% (24M → 29M). ↩︎

Supongo que te gusta

Origin blog.csdn.net/qq_45934285/article/details/132120695
Recomendado
Clasificación