principio GAN

Una variedad de divergencia

entropía

Aquí Insertar imagen Descripción
La cantidad de información realizado por la distribución P
/
utilizando el número mínimo de bytes requeridos para codificar la distribución basada en P de la P muestra

entropía cruzada

Aquí Insertar imagen Descripción
P distribución de la información desde la perspectiva de vista de la distribución de Q
/
muestra de uso basado en la distribución P Q "longitud de código promedio" requerido para codificar el deseado
por qué la pérdida de entropía cruzada puede ser usado para medir? Referencia
de formación de distribución de muestras entropía P es constante, igual a una minimización de la entropía transversal mínima de KL divergencia, es decir, la cantidad de información con la distribución de corriente para adaptarse a la distribución de la pérdida de datos de entrenamiento.

marea KL

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
asimetría no negativo

distribución Q usando cantidad aproximada de pérdida de información cuando la distribución de la P
/
basado codifica Q "longitud adicional necesaria para el código" distribución de la muestra P.

JS divergencia

Aquí Insertar imagen Descripción
Cuanto más similares más pequeña es la simetría entre 0-1

principio GAN

La pérdida del discriminador GAN inicial definido, podemos obtener la forma óptima del discriminador; en el discriminador óptimo, puede definir el generador de GAN original en una pérdida equivalente minimizar la distribución real PAG r P_R Y la generación distribuida PAG sol P_g divergencia JS entre.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Fijo G, D óptima se determina y, a continuación sustituyendo DV max (G, D), para dar la divergencia JS, mínimo -2log2
minimizar la fórmula anterior, es decir, JS divergencia optimizado, entonces debeAquí Insertar imagen Descripción

problemas de formación

  1. G, Entrenamiento D el uno del otro
    después de la actualización G, JS divergencia se corresponde con una más pequeña, pero también afecta a la V (G, D) curva, y que la siguiente MAXV (G, D) puede llegar a ser grande, y que es D la capacidad para adaptarse tanto la distribución peor
    actualizado solución varias veces D, G actualiza
  2. JS resolución de problemas divergencia más-ruido
    cuadro se hace de bajo dimensional vector para generar alta dimensión, ya PAG r P_R y PAG sol P_g Casi imposible tener un solapamiento no despreciable, por lo que no importa lo lejos que son constantes JS divergencia Iniciar sesión 2 \ Log 2 , que finalmente llevan al generador de gradiente de (aproximadamente) es 0, el gradiente desaparece.
  3. Mejorados pérdida generador conduce a la inestabilidad y el colapso escasez diversidad modo Aquí Insertar imagen DescripciónAquí Insertar imagen Descripción
    Aquí Insertar imagen Descripción
    iguales para minimizar Aquí Insertar imagen Descripción
    sino también minimizar KL, sino también para maximizar la inestabilidad JS gradiente

KL problemas anteriores: asimétrica
Aquí Insertar imagen Descripción
primera generación es no existe ningún conjunto de datos de la muestra real, el segundo es el error generado no hay datos reales en la muestra, entonces yo preferiría no generar muestra de la diversidad, no prueba y error.

Wgan

Tierra-Mover (EM) distancia

Y W (P_R, P_g) es el "consumo mínimo" en la "planificación de la trayectoria óptima."
En todo posible distribución conjunta, en busca de muestras reales y generar la distancia de muestra deseado, teniendo el deseado límite inferior.
Es decir, la distribución óptima de las articulaciones, Pr trasladó al consumo mínimo de Pg.
Wasserstein en comparación KL divergencia distancia, la superioridad de JS divergencia es que, incluso si las dos distribuciones no se superponen, siendo la distancia para reflejar Wasserstein distancia de la misma.

Wgan

Aquí Insertar imagen Descripción
muestras reales tomadas para f (x), para generar una muestra se toma -f (x) del sector, existen restricciones en el parámetro de gradiente w.
Aquí Insertar imagen Descripción
Laplace continuaAquí Insertar imagen Descripción

La diferencia entre el GAN originales:
1. función de pérdida
Aquí Insertar imagen Descripción

  1. parámetro Laplace trunca a condiciones conocer
    Aquí Insertar imagen Descripción

  2. Extracción del discriminador sigmoide
    debido a que el original D (x) es 0, el valor de ajuste, y donde el accesorio es Wassertain distancia discriminador.

GAN relativistas

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

Publicado 35 artículos originales · ganado elogios 2 · Vistas 1417

Supongo que te gusta

Origin blog.csdn.net/qq_30776035/article/details/104694112
Recomendado
Clasificación