Notas en papel: ViTGAN: Entrenamiento de GAN con Vision Transformers

2021

1 introducción

  • La pregunta de investigación del artículo es: si ViT puede completar la tarea de generación de imágenes sin utilizar convolución o agrupación.
    • Es decir, en lugar de CNN, use ViT para completar la tarea de generación de imágenes.
  • Al integrar la arquitectura ViT en GAN, se descubrió que el método de regularización de GAN existente interactúa mal con el mecanismo de autoatención, lo que genera una grave inestabilidad durante el proceso de entrenamiento.
    • ——> Se introdujeron nuevas técnicas de regularización para entrenar GAN con ViT.
    • El modelo ViTGAN es muy superior a los modelos GAN basados ​​​​en Transformer y el rendimiento es comparable al de las GAN basadas en CNN (como Style-GAN2) sin utilizar convolución ni agrupación.
    • El modelo ViTGAN es uno de los primeros en aprovechar los transformadores visuales en las GAN.

2 métodos

  • El uso directo de ViT como discriminador hace que el entrenamiento sea inestable.
    • El artículo presenta nuevas técnicas tanto para el generador como para el discriminador para estabilizar la dinámica del entrenamiento y promover la convergencia.
      • (1) Regularización del discriminador de ViT;
      • (2) Nueva arquitectura del generador.

 2.1 Regularización del discriminador de ViT

  • La continuidad de Lipschitz es importante en el discriminador GAN
  • Sin embargo, un trabajo reciente muestra que la constante de Lipschitz de las capas de autoatención del producto escalar estándar puede ser ilimitada, lo que hace que Lipschitz se viole de forma continua en ViT.
    • —>1, use la distancia euclidiana en lugar de la similitud del producto escalar
    • —>2, multiplica la matriz de peso normalizada de cada capa por la norma espectral durante la inicialización
      • Para cualquier matriz A, su Norma Espectral se define como:
        • También se puede definir como el valor singular máximo de la matriz A.
        • Norma espectral para la matriz de cálculo σ

2.2 Generador de diseño

3 experimentos

 

Supongo que te gusta

Origin blog.csdn.net/qq_40206371/article/details/133267199
Recomendado
Clasificación