principio GAN

Directorio artículo

Una variedad de divergencia

entropía
entropía cruzada
marea KL
JS divergencia

principio GAN

problemas de formación

Wgan

Tierra-Mover (EM) distancia
Wgan

GAN relativistas

Una variedad de divergencia

entropía

Aquí Insertar imagen Descripción
La cantidad de información realizado por la distribución P
/
utilizando el número mínimo de bytes requeridos para codificar la distribución basada en P de la P muestra

entropía cruzada

Aquí Insertar imagen Descripción
P distribución de la información desde la perspectiva de vista de la distribución de Q
/
muestra de uso basado en la distribución P Q "longitud de código promedio" requerido para codificar el deseado
por qué la pérdida de entropía cruzada puede ser usado para medir? Referencia
de formación de distribución de muestras entropía P es constante, igual a una minimización de la entropía transversal mínima de KL divergencia, es decir, la cantidad de información con la distribución de corriente para adaptarse a la distribución de la pérdida de datos de entrenamiento.

marea KL

Aquí Insertar imagen Descripción

asimetría no negativo

distribución Q usando cantidad aproximada de pérdida de información cuando la distribución de la P
/
basado codifica Q "longitud adicional necesaria para el código" distribución de la muestra P.

JS divergencia

Aquí Insertar imagen Descripción
Cuanto más similares más pequeña es la simetría entre 0-1

La pérdida del discriminador GAN inicial definido, podemos obtener la forma óptima del discriminador; en el discriminador óptimo, puede definir el generador de GAN original en una pérdida equivalente minimizar la distribución real $P_R$ Y la generación distribuida $P_g$ divergencia JS entre.
Aquí Insertar imagen Descripción

Fijo G, D óptima se determina y, a continuación sustituyendo DV max (G, D), para dar la divergencia JS, mínimo -2log2
minimizar la fórmula anterior, es decir, JS divergencia optimizado, entonces debe

problemas de formación

G, Entrenamiento D el uno del otro
después de la actualización G, JS divergencia se corresponde con una más pequeña, pero también afecta a la V (G, D) curva, y que la siguiente MAXV (G, D) puede llegar a ser grande, y que es D la capacidad para adaptarse tanto la distribución peor
actualizado solución varias veces D, G actualiza
JS resolución de problemas divergencia más-ruido
cuadro se hace de bajo dimensional vector para generar alta dimensión, ya $P_R$ y $P_g$ Casi imposible tener un solapamiento no despreciable, por lo que no importa lo lejos que son constantes JS divergencia $\ Log 2$ , que finalmente llevan al generador de gradiente de (aproximadamente) es 0, el gradiente desaparece.
Mejorados pérdida generador conduce a la inestabilidad y el colapso escasez diversidad modo

iguales para minimizar
sino también minimizar KL, sino también para maximizar la inestabilidad JS gradiente

KL problemas anteriores: asimétrica
Aquí Insertar imagen Descripción
primera generación es no existe ningún conjunto de datos de la muestra real, el segundo es el error generado no hay datos reales en la muestra, entonces yo preferiría no generar muestra de la diversidad, no prueba y error.

Wgan

Tierra-Mover (EM) distancia

Y W (P_R, P_g) es el "consumo mínimo" en la "planificación de la trayectoria óptima."
En todo posible distribución conjunta, en busca de muestras reales y generar la distancia de muestra deseado, teniendo el deseado límite inferior.
Es decir, la distribución óptima de las articulaciones, Pr trasladó al consumo mínimo de Pg.
Wasserstein en comparación KL divergencia distancia, la superioridad de JS divergencia es que, incluso si las dos distribuciones no se superponen, siendo la distancia para reflejar Wasserstein distancia de la misma.

Wgan

Aquí Insertar imagen Descripción
muestras reales tomadas para f (x), para generar una muestra se toma -f (x) del sector, existen restricciones en el parámetro de gradiente w.

Laplace continua

La diferencia entre el GAN originales:
1. función de pérdida
Aquí Insertar imagen Descripción

parámetro Laplace trunca a condiciones conocer
Extracción del discriminador sigmoide
debido a que el original D (x) es 0, el valor de ajuste, y donde el accesorio es Wassertain distancia discriminador.