GAN revisar la historia de la versión más completa de 2020: Algoritmos, Teoría y Aplicación

Desde 2014 Ian Goodfellow GAN modelo propuesto, generado frente a la red rápidamente se convirtió en el modelo generativo más caliente. Hoy en día, el nuevo diseño basado en el algoritmo de GAN multiplicado han surgido para el análisis en profundidad de las cuestiones GAN teoría de los modelos existentes emergentes, tales como el colapso de la convergencia y sus aplicaciones son ampliamente penetrado en tales como la visión por computador, procesamiento del lenguaje natural, médico inteligencia artificial y otros campos. Este artículo es una revisión detallada de la GAN mano Amoy ganado grande en coche de Yejie Ping y otro maestro, presentó el progreso de la investigación en los últimos años sobre el modelo GAN, y señaló la dirección del desarrollo futuro en este campo.

dirección de papeles: https: //arxiv.org/pdf/2001.06937.pdf

En los últimos años, de producción de la confrontación de red (GAN) es un tema de investigación. Hasta ahora, en 2014, la gente GAN llevó a cabo una extensa investigación, y formuló una serie de algoritmos. Sin embargo, hay pocos estudios son necesarios amplios para explicar el vínculo entre las diferentes variantes de GAN y su evolución. En este trabajo, tratamos de llevar a cabo una revisión de los distintos métodos, desde la perspectiva de los algoritmos de GAN, teoría y aplicaciones. En primer lugar, se estudió en detalle la motivación de la mayoría de los algoritmos de GAN, caracterización matemática y la arquitectura. Además, GAN tiene aplicación particular en algunos otros algoritmos de aprendizaje automático combinados como el aprendizaje semi-supervisado, aprendizaje por refuerzo y el aprendizaje de transferencia. Este trabajo compara las similitudes y diferencias de estos métodos GAN. En segundo lugar, se estudian los aspectos teóricos relacionados con la GAN. En tercer lugar, se describe el procesamiento de imágenes y visión por ordenador, procesamiento del lenguaje natural, música, voz y datos de audio, médicos y científicos en aplicaciones típicas en la GAN. Por último, señalamos algunos de los futuros del estudio de etiqueta abierta de la GAN problema.

algoritmo

En esta sección, primero introducimos la GAN más original. A continuación, se describe una variante representativa, así como para la formación y la evaluación basada en tareas GAN modo.

Generación confrontación red

Cuando los modelos son las redes neuronales, la arquitectura GAN para lograr muy intuitiva. Con el fin de aprender el generador p_g distribución de los datos x se define primero en una variable antes p_z distribución de ruido de entrada (z) [. 3], donde z es la varianza del ruido. A continuación, el mapa que muestra la GAN G (z, θ_g) de ruido al espacio de datos, donde G es un parámetro de la función diferenciable la representación de red neural θ_g. Además de G, otra red neural D (x, θ_d) definen parámetro θ_d, la salida D (x) es un escalar. D (x) representa x a partir de datos real en lugar de la probabilidad de G del generador. Formamos a discriminador D, para maximizar los datos de entrenamiento y el generador G genera una probabilidad de falsas muestras para proporcionar la etiqueta correcta. Mientras tanto, formamos G, minimizando el log (1-D (G (z))).

  • La función objetivo

GAN puede utilizar una variedad de diferentes funciones objetivo.

  • El más primitivo Minimax Juego

GAN [3] La función objetivo

Donde D (x) es [1, 0] ^ T y [D (x), 1 - D (x)] ^ entre el T. entropía cruzada Del mismo modo, log (1-D (G (z))) es de [0, 1] ^ T y [D (G (z)), 1 - D (G (z))] ^ entropía cruzada entre T. Para una G fija, [3] ofrece la mejor discriminador D:

(1) Juego fórmula minimax puede ser re-formula como:

Dos distribuciones de probabilidad p (x) y q KL divergencia y divergencia JS está definido entre el (x) como sigue:

Por consiguiente, (3) es equivalente a la fórmula

Por lo tanto, la función objetivo del GAN ​​JS y KL divergencia y divergencia están relacionados.

  • Juego insaturados

De hecho, la fórmula (1) no puede proporcionar una suficientemente grandes gradientes hacen que sea un buen aprendizaje G. En, bajo rendimiento general G en el proceso de aprendizaje temprano, hay diferencias significativas en las muestras y los datos de entrenamiento. Por lo tanto, D puede ser rechazada muestras G generado con alta confianza. En este caso, log (1-D (G (z))) está saturado. Podemos entrenar G para maximizar el log (D (G (z))), en lugar de reducir al mínimo el registro (1-D (G (z))). generador de pérdida se convierte

Esta nueva función objetivo puede lograr el mismo punto fijo en el proceso de formación, a D y G, pero en el aprendizaje temprano puede proporcionar un gradiente mucho más grande. juego heurístico insaturado es impulsado en lugar de la teoría. Sin embargo, hay otros problemas de juego insaturados, tales como la inestabilidad de los valores de gradiente G de la formación. En el óptimo D * _G allí

Por lo tanto E_ (x ~ p_g) [- log (D * _G (x))] es equivalente a

De acuerdo con (3) y (6), hay

Por lo tanto E_ (x ~ p_g) [log ^ (1 - D * _G (x))] es equivalente a

El (11) se sustituye en la fórmula (9) pueden obtenerse

Como puede verse a partir de (12), la función de pérdida de optimización de juego alternativa insaturados G son contradictorios, ya que el primer objetivo es hacer la diferencia entre la distribución real y el generador de distribución lo más pequeño posible, pero debido al signo negativo la existencia del segundo objetivo es hacer la diferencia entre estas dos distribuciones lo más grande posible. Esta formación aportará un valor G inestabilidad gradiente. Además, KL divergencia asimétrica métrica, esto se puede reflejar en los siguientes dos ejemplos

G penalidad de dos errores son completamente diferentes. El primer error es la muestra G tenía una falsa, que corresponde a un gran castigo. El segundo error es el G no logró producir muestras reales, mientras que el castigo es muy pequeña. La primera es para generar muestras de error no es exacto, y el segundo error de la muestra es suficiente para generar la diversidad. Basándose en este principio, G tiende a producir duplicados de las muestras, pero seguro, en lugar de asumir riesgos para generar muestras de diferente pero inseguros, que puede conducir al problema de modo de colapso (colapso modo).

  • Juego de máxima verosimilitud

En GAN, hay muchas maneras a la ecuación aproximada (1). Supongamos discriminador es el mejor, queremos minimizar

Hay otros métodos posibles el enfoque de máxima verosimilitud [17] en el marco GAN. La figura 1 muestra para el original de suma cero juego, juego insaturado y comparar la probabilidad máxima del juego.

Puede ser obtenida por los tres observación FIG.

En primer lugar, cuando la muestra puede venir del generador, es decir, el extremo izquierdo en la Fig., La máxima verosimilitud Minimax juego original y el juego se ve afectada por el gradiente de difusión, la heurística juego insaturado Este problema no existe.

En segundo lugar, Máxima Verosimilitud juego hay un problema que casi todos vienen desde el extremo derecho de la pendiente de la curva, lo que significa que cada minibatch en sólo una muy pequeña parte de la muestra dominó los gradientes de computación. Esto sugiere que los métodos para reducir la varianza de la muestra pueden ser importantes para mejorar el rendimiento de la investigación basada en el juego de máxima verosimilitud de la GAN.

En tercer lugar, la varianza de la muestra bajo basado en heurística Juego insaturado, que puede ser más probable razón de su éxito en las aplicaciones prácticas.

M.Kahng et al. [124] propuesta GAN Lab, no profesionales para aprender y experimentar con GAN ofrece una herramientas de visualización interactiva. Bau et al [125] presentó un marco analítico para visualizar y comprender la GAN.

variantes representativas GAN

Y GAN [126] - [131] Hay muchos documentos relacionados, por ejemplo, CSGAN [132] y Logan [133]. En esta sección, describiremos algunas variantes representativas GAN.

  1.  InfoGAN

  2.  ConditionalGANs (cGANs)

  3.  CycleGAN

  4.  f-SER

  5.  IntegralProbabilityMetrics (IPM) 

  6. LossSensitiveGAN (LS-gan)

Hay uno llamado "El GAN ​​Zoo" Sitio Web (https://github.com/hindupuravinash/the-gan-zoo), enumera una serie de variantes de la GAN. Para obtener más información, visite el sitio web.

formación GAN

A pesar de la solución única en la teoría, pero por diversas razones [29], [32], [179], la formación GAN es difícil ya menudo inestable. Una de las dificultades derivadas del hecho de: que el peso óptimo de GAN corresponde pérdida de peso a un punto de silla de montar de la función, más que mínimos.

Muchos trabajos sobre la formación GAN. Yadav et al [180] Formación GAN predijo que el método es más estable. [181] Mediante el uso de una tasa de aprendizaje independiente, dos escalas de tiempo propuesto regla de actualización (TTUR) se determina y el generador para asegurar que el modelo puede converger a un equilibrio de Nash locales estable. Arjovsky [179] fueron capacitados para comprender plenamente la dinámica de la GAN (dinámica de formación) explorado el análisis teórico de la razón por la GAN duro entrenamiento, investigación y estrictamente demostraron que la función de pérdida que aparece cuando los problemas de saturación de la formación de GAN y la inestabilidad, las soluciones propuestas una base teórica y práctica de la dirección de este tipo de problemas, e introdujo nuevas herramientas para estudiar ellos. Liang et al. [182] GAN piensan que la formación es un continuo de problemas de aprendizaje [183].

Una forma de mejorar la formación es de evaluar la formación GAN que puede ocurrir en empíricos "síntomas". Estos síntomas incluyen: generador de colapso a sólo generan muestras muy similares [29] para diferentes de entrada; converge discriminador pérdida rápidamente a cero [179] no proporciona una actualizaciones generador de gradiente; habilitar generador, este discriminador difícil para converger el modelo [32].

Vamos a introducir tres ángulos de formación GAN:

  1. La función objetivo

  2. Consejos de Formación

  3. arquitectura

Evaluación de GAN

En esta sección, se ilustran algunas de la evaluación para la GAN [215], [216]:

  1. InceptionScore (IS)

  2. Modescore (MS)

  3. FrechetInceptionDistance (FID) 

  4. Multi-scalestructuralsimilarity (MS-SSIM) 

¿Cómo elegir un índice de evaluación bueno para el GAN ​​es todavía un problema [225]. Xu et al. [219] propuso un estudio empírico en la evaluación de la GAN. Karol Kurach [224] de la regularización GAN y el estudio normalización a gran escala se llevó a cabo. Hay otra GAN para los estudios comparativos, tales como [226]. Ref. [227] propuso varias métricas como una medida de yuanes para guiar a los investigadores eligieron una evaluación cuantitativa. Evaluación apropiada debe ser separado de muestras reales y generar área de la muestra falsa, compruebe gota modo (gota modo) o colapso patrón, y detectar exceso de ajuste. Esperanza en el futuro habrá una mejor manera de evaluar la calidad del modelo de la GAN.

GAN tarea impulsada

Este artículo se centra modelo GAN atención. Actualmente, un campo estrechamente relacionado relacionada con una tarea específica, ya hay una gran cantidad de literatura.

  1. semi-aprendizaje supervisado

  2. transferencia de aprendizaje

  3. refuerzo de aprendizaje

  4. aprendizaje multimodal

GAN se ha utilizado para estudiar el arte en el que, por ejemplo, la función de selección [277], el hash [278] - [285] y el aprendizaje métrica [286]. MisGAN [287] puede aprender a utilizar datos incompletos por la GAN. [288] propuso GAN evolutiva (Evolutionary GAN). Ponce et al [289] y GA GAN neuronas vinculante evolución imagen visual. GAN también se utiliza para otros máquina de aprendizaje tareas [290], por ejemplo, el aprendizaje activo [291], [292], el aprendizaje en línea [293], el aprendizaje conjunto [294], la muestra de aprendizaje cero [295], [296] multi-tarea de aprendizaje y [297].

teoría

estimación de máxima verosimilitud (MLE)

No todos los modelos se generan utilizando el MLE. Algunos modelo generó sin utilizar MLE, pero se puede modificar utilizando MLE (GAN entran en esta categoría). El diario de probabilidad se puede demostrar fácilmente, KL divergencia (KLD) entre minimizar p_data (x) y p_g (x) es equivalente a maximizar el número de muestras aumenta el m:

Con el fin de garantizar la coherencia de la notación, el modelo de distribución de probabilidad p_θ (x) se sustituye p_g (x). Para obtener más información acerca de las estimaciones MLE y otras estadísticas, véase [298] Capítulo 5.

colapso del patrón

entrenamiento duro GAN, y [26], [29] Se ha observado que a menudo están sujetos a modo de colapso [299] [300] Efectos, en donde la muestra de aprendizaje de generación de acuerdo para generar solamente un modo de distribución de datos de unos pocos, sin tener en cuenta una serie de otros modelos (aunque no en todas las muestras de datos de entrenamiento a partir del patrón que falta). En el peor de los casos, sólo un único generador de ejemplo genera (completamente colapsado) [179], [301].

En esta sección, primero introducimos dos vistas de modo GAN del colapso: la divergencia de opiniones y dictámenes algoritmo. A continuación, vamos a introducir al proponer una nueva función objetivo o método para abordar el nuevo modelo de arquitectura colapsado, incluyendo métodos basados ​​en la arquitectura función objetivo y método basado.

Otras cuestiones teóricas

Otras teorías incluyen:

1. GAN realmente aprender si la distribución?

2. divergencia / distancia

3. aplicación inversa

4. punto matemático (por ejemplo, optimizado)

5. memoria

solicitud

Como se describió anteriormente, GAN es un modelo de gran alcance puede ser generada por un vector z aleatorio para generar muestra realista. No necesitamos saber explícitamente la distribución de los datos reales, o cualquier otro supuestos matemáticos. Estas ventajas hacen GAN puede ser aplicado ampliamente en muchos campos, como el procesamiento de imágenes y visión por ordenador, los datos de secuencia.

procesamiento de imágenes y visión por ordenador

GAN es la aplicación de mayor éxito en el procesamiento de imágenes y visión por ordenador, por ejemplo, la imagen de super-resolución, y la operación de procesamiento de generación de imágenes de vídeo.

  1. Super-resolución

  2. Y la operación de síntesis de imágenes

  3. la síntesis de la textura

  4. detección de blancos

  5. Aplicaciones de vídeo

Los datos de secuencia

GAN también en la secuencia de datos hace algunos logros, como el lenguaje natural, música, voz, audio, [376], [377], las series de tiempo [378] - [381] y así sucesivamente.

pregunta de investigación abierto

GAN campo todavía hay muchas preguntas de la investigación abierta.

Los datos discretos para GAN: GAN depende de parámetros relativos a la generación de generar una muestra es completamente diferenciables. Por lo tanto, los datos discretos GAN no se pueden generar directamente, por ejemplo, y una codificación caliente un hash vector (uno-caliente). Para resolver este problema es muy importante, ya que puede liberar el potencial de GAN en el procesamiento del lenguaje natural y el cálculo de hash. Goodfellow tres métodos propuestos para resolver este problema [103]: usando el Gumbel-softmax [448], [ 449] o una distribución discreta [450]; con el algoritmo reforzado [451]; generador de tren a transformar en un valores de muestra discretos valores continuos (muestreo palabra vector por ejemplo, directamente integrado).

Hay otros caminos hacia el desarrollo de la investigación. Song et al [278] se utilizó para aproximar una función continua de valor de la función signo del hash. Gulrajani et al [19] utilizando un generador de datos discretos de modelado continuo. Hjelm et al [452] introduce una formación de datos GAN utilizando el algoritmo discreto para calcular la importancia de la derecha utilizando el peso estimado de la muestra para generar diferencia métrica desde el discriminador, a fin de proporcionar una estrategia de formación para el generador de gradiente. Sí, el [454] para encontrar otro trabajo relacionado en [453]. En estas áreas se produce interesantes necesita más trabajo.

El nuevo divergencia: investigadores han propuesto un nuevo conjunto de medida de probabilidad integral (IPM) la formación de GAN, tales como Fisher GAN [455], [456 ], función de la media y de covarianza coincidente GAN (McGan) [457] y GAN Sobolev [458]. ¿Hay alguna otra categoría interesante divergencia? Esto merece más estudio.

La incertidumbre de las estimaciones: En términos generales, más datos que tenemos, se estima que la menor incertidumbre. GAN no dará generación distribuida de muestras de entrenamiento, pero GAN querer una nueva generación y distribución de muestras de entrenamiento de la misma muestra. Por lo tanto, ni GAN probabilidad no existe una definición clara de la distribución posterior. Ya existen en el intento inicial en esta dirección de la investigación, tales como Bayesiano GAN [459]. Aunque podemos utilizar la GAN generar datos, pero la forma de medir la incertidumbre entrenado generador de hacer? Esta es otra de las cuestiones interesantes dignos de la investigación futura.

Teoría: . Sobre la generalización problema, Zhang et al [460] propuso una generalización de la frontera entre la distribución real en la evaluación diferente y aprender a distribución. Cuando se evaluó por nervioso de generalización unido [460] se indica que mientras el conjunto discriminador es suficientemente pequeño, no importa lo que el tamaño del conjunto de generador supuesto o conjunto de generalizada están garantizados. Arora et al. [306] propuso un método de prueba novela, usando un discreto probabilidad "paradoja del cumpleaños" para estimar el tamaño del conjunto de soporte, y muestra que, incluso con alta calidad de imagen visual, GAN también será colapso patrón afectado. Más estudio en profundidad del análisis teórico vale la pena. ¿Cómo probamos empíricamente generalización? teoría útil debe ser capaz de seleccionar una categoría, la capacidad y el modelo de arquitectura. Esta es una pregunta interesante digno de mayor trabajo de investigación en el futuro.

Publicados 232 artículos originales · ganado elogios 93 · Vistas a 50000 +

Supongo que te gusta

Origin blog.csdn.net/qq_42370150/article/details/104756594
Recomendado
Clasificación