[Visión por computadora | Generar confrontación] Aprendizaje de representación no supervisado con red de confrontación generativa convolucional profunda (DCGAN)

Esta serie de publicaciones de blog son notas para artículos de aprendizaje profundo/visión por computadora. Indique la fuente para la reimpresión.

标题: Aprendizaje de representación no supervisado con redes adversas generativas convolucionales profundas

链接:[1511.06434] Aprendizaje de representación no supervisado con redes adversas generativas convolucionales profundas (arxiv.org)

Resumen

En los últimos años, el aprendizaje supervisado de redes convolucionales (CNN) se ha utilizado ampliamente en aplicaciones de visión por computadora. Por el contrario, el aprendizaje no supervisado de las CNN ha recibido menos atención. En este trabajo, esperamos cerrar la brecha entre el aprendizaje supervisado y no supervisado en las CNN. Presentamos una clase de CNN llamada redes adversariales generativas convolucionales profundas (DCGAN), que tienen ciertas restricciones arquitectónicas y demostramos que son fuertes candidatos para el aprendizaje no supervisado. Al entrenar en varios conjuntos de datos de imágenes, mostramos evidencia convincente de que nuestros pares adversarios convolucionales profundos aprenden una jerarquía de representaciones desde partes de objetos hasta escenas tanto en el generador como en el discriminador. Además, utilizamos las funciones aprendidas para nuevas tareas, demostrando su aplicabilidad como representaciones de imágenes generales.

1. Introducción

Aprender representaciones de características reutilizables a partir de grandes conjuntos de datos sin etiquetar ha sido un área de investigación activa. En el contexto de la visión por computadora, se pueden aprovechar cantidades prácticamente ilimitadas de imágenes y videos sin etiquetar para aprender buenas representaciones intermedias, que luego se pueden usar en diversas tareas de aprendizaje supervisado, como la clasificación de imágenes. Proponemos que una forma de construir buenas representaciones de imágenes es entrenar redes generativas adversarias (GAN) (Goodfellow et al., 2014) y luego reutilizar partes de las redes generadoras y discriminadoras como extractores de características para tareas supervisadas. Las GAN ofrecen una alternativa atractiva a las técnicas de máxima probabilidad. También se podría argumentar que su procedimiento de aprendizaje, junto con una función de costos sin heurísticas como el error cuadrático medio independiente de los píxeles, es atractivo para el aprendizaje de representaciones. Las GAN son notoriamente inestables, lo que a menudo resulta en una salida sin sentido del generador. La investigación publicada es muy limitada a la hora de intentar comprender y visualizar lo que han aprendido las GAN y las representaciones intermedias de las GAN multicapa.

En este trabajo hacemos las siguientes contribuciones:

  • Proponemos y evaluamos un conjunto de restricciones en la topología arquitectónica de las GAN convolucionales que las hacen robustas para el entrenamiento en la mayoría de los entornos. A esta clase de arquitecturas las denominamos Redes Adversarias Generativas Convolucionales Profundas (DCGAN).
  • Utilizamos un discriminador capacitado para tareas de clasificación de imágenes y demostramos un rendimiento competitivo con otros algoritmos no supervisados.
  • Visualizamos los filtros aprendidos por las GAN y mostramos empíricamente que filtros específicos han aprendido a dibujar objetos específicos.
  • Mostramos que los generadores tienen interesantes propiedades aritméticas vectoriales que permiten una fácil manipulación de muchas cualidades semánticas de las muestras generadas.

2. Trabajo relacionado

2.1 Aprender representaciones a partir de datos sin etiquetar

El aprendizaje de representaciones no supervisadas es un problema bastante bien estudiado en la investigación general de visión por computadora, también en el contexto de las imágenes. El enfoque clásico para el aprendizaje de representación no supervisado es agrupar los datos (por ejemplo, utilizando K-medias) y explotar estos grupos para mejorar las puntuaciones de clasificación. En el contexto de las imágenes, los parches de imágenes se pueden agrupar jerárquicamente (Coates & Ng, 2012) para aprender representaciones de imágenes poderosas. Otro enfoque popular es entrenar un codificador automático (convolucional, apilable (Vincent et al., 2010), qué y dónde los componentes del código separado (Zhao et al., 2015), arquitectura de escalera (Rasmus et al., 2015)), donde La imagen se codifica en un código compacto y el código se decodifica para reconstruir la imagen con la mayor precisión posible. También se ha demostrado que estos métodos aprenden buenas representaciones de características a partir de píxeles de imágenes. También se ha demostrado que Deep Belief Networks (Lee et al., 2009) funcionan bien en el aprendizaje de representaciones jerárquicas.

2.2 Generando imágenes naturales

Los modelos de imágenes generativas se han estudiado intensamente y se dividen en dos categorías: paramétricos y no paramétricos. Los modelos no paramétricos generalmente coinciden con bases de datos de imágenes existentes, a menudo parches de imágenes coincidentes, y se han utilizado para síntesis de texturas (Efros et al., 1999), superresolución (Freeman et al., 2002) y pintura de imágenes (Hays & Efros, 2007). Se han explorado ampliamente modelos paramétricos para generar imágenes (por ejemplo, en dígitos MNIST o para síntesis de texturas (Portilla y Simoncelli, 2000)). Sin embargo, la generación de imágenes naturales del mundo real no ha tenido mucho éxito hasta hace poco. Los métodos de muestreo variacional (Kingma & Welling, 2013) para generar imágenes han tenido cierto éxito, pero las muestras a menudo se vuelven borrosas. Otro enfoque utiliza un proceso iterativo de difusión directa (Sohl-Dickstein et al., 2015) para generar imágenes. Las imágenes generadas por redes generativas adversarias (Goodfellow et al., 2014) sufren de ruido e incomprensión. Una extensión de la pirámide laplaciana de este enfoque (Denton et al., 2015) muestra imágenes de mayor calidad, pero aún sufren de objetos que parecen tambalearse debido al ruido introducido al vincular múltiples modelos. Los enfoques de redes recurrentes (Gregor et al., 2015) y los enfoques de redes deconvolucionales (Dosovitskiy et al., 2014) también han mostrado recientemente cierto éxito en la generación de imágenes naturales. Sin embargo, no utilizaron generadores para tareas supervisadas.

2.3 Visualización de la estructura interna de las CNN

Una crítica persistente al uso de redes neuronales es que son enfoques de caja negra, con poca comprensión de lo que hace la red en forma de un algoritmo simple y digerible para el ser humano. En el contexto de las CNN, Zeiler et al. (Zeiler & Fergus, 2014) muestran que mediante el uso de deconvolución y filtrado con activaciones máximas, es posible encontrar el uso aproximado de cada filtro convolucional en la red. Asimismo, el descenso de gradiente en la entrada nos permite examinar imágenes ideales que activan algún subconjunto de filtros (Mordvintsev et al.).

3 Método y arquitectura del modelo.

Los intentos históricos de ampliar las GAN para simular imágenes utilizando CNN no han tenido éxito. Esto llevó a los autores de LAPGAN (Denton et al., 2015) a desarrollar un método alternativo que mejora iterativamente las imágenes generadas de baja resolución que pueden modelarse de manera más confiable. También tuvimos dificultades al intentar escalar GAN con arquitecturas CNN comúnmente utilizadas en la literatura supervisada. Sin embargo, después de una exploración exhaustiva del modelo, identificamos una familia de arquitecturas que son sólidas para entrenar en una variedad de conjuntos de datos y permiten entrenar modelos generativos más profundos y de mayor resolución.

El núcleo de nuestro enfoque es la adopción y modificación de tres cambios recientes en las arquitecturas de CNN. La primera es una red totalmente convolucional (Springenberg et al., 2014), que reemplaza las funciones de agrupación espacial deterministas (como la agrupación máxima) con convoluciones escalonadas, lo que permite a la red aprender su propia reducción de resolución espacial. Usamos este enfoque en el generador, que aprende su propio muestreo espacial, y en el discriminador. La segunda es la tendencia a eliminar capas completamente conectadas además de características convolucionales. El ejemplo más claro de esto es la agrupación promedio global, que se ha utilizado en modelos de clasificación de imágenes de última generación (Mordvintsev et al.). Encontramos que la agrupación promedio global aumenta la estabilidad del modelo pero reduce la tasa de convergencia. Conectar directamente las características convolucionales más altas a la entrada y salida del generador y discriminador funciona bien. La primera capa de una GAN, que toma una distribución de ruido uniforme Z como entrada, se puede llamar completamente conectada porque es solo una multiplicación de matrices, pero el resultado se transforma en un tensor de 4 dimensiones y se usa como el inicio de una pila convolucional. . Para el discriminador, la capa convolucional final se aplana y se introduce en una única salida sigmoidea. Consulte la Figura 1 para obtener una visualización de una arquitectura de modelo de ejemplo.

Figura 1: Generador DCGAN para modelado de escenas LSUN. Una distribución uniforme Z de 100 dimensiones se asigna a una representación convolucional de una extensión espacial pequeña con muchos mapas de características. Luego, las convoluciones de cuatro pasos fraccionarios (en algunos artículos recientes, se denominan erróneamente deconvoluciones) convierten esta representación de alto nivel en una imagen de 64 × 64 píxeles. Vale la pena señalar que no se utilizan capas completamente conectadas o agrupadas.

El tercero es la regularización por lotes (Ioffe y Szegedy, 2015), que estabiliza el aprendizaje normalizando la entrada a cada unidad para que tenga media cero y varianza unitaria. Esto ayuda con los problemas de entrenamiento debido a una inicialización deficiente y ayuda al flujo de gradiente en modelos más profundos. Esto es fundamental para que el generador profundo comience a aprender, evitando que el generador colapse todas las muestras en un solo punto, un modo de falla común observado en las GAN. Sin embargo, la aplicación directa de la norma por lotes a todas las capas provoca oscilación de la muestra e inestabilidad del modelo. Esto se evita al no aplicar la norma por lotes en la capa de salida del generador y la capa de entrada del discriminador. La función de activación ReLU (Nair & Hinton, 2010) se usa en el generador, excepto que la capa de salida usa la función Tanh. Observamos que el uso de activaciones acotadas permite que el modelo aprenda más rápidamente a saturar y cubrir el espacio de color de la distribución de entrenamiento. Dentro del discriminador, encontramos que las activaciones corregidas con fugas (Maas et al., 2013) (Xu et al., 2015) funcionan bien, especialmente para el modelado de alta resolución. Esto contrasta con el artículo GAN original, que utilizaba activaciones maxout (Goodfellow et al., 2013).

Directrices arquitectónicas para GAN convolucionales profundas estables:

  • Reemplace las capas de agrupación con convoluciones escalonadas (discriminador) y convoluciones escalonadas fraccionadas (generador).
  • La normalización por lotes (batchnorm) se utiliza tanto en el generador como en el discriminador.
  • Para una arquitectura más profunda, se eliminan las capas ocultas completamente conectadas.
  • En el generador, todas las capas excepto la capa de salida usan la función de activación ReLU, que usa Tanh para la capa de salida.
  • Todas las capas del discriminador utilizan la función de activación LeakyReLU.

4 Detalles del entrenamiento adversario

Entrenamos DCGAN en tres conjuntos de datos, comprensión de escenas a gran escala (LSUN) (Yu et al., 2015), Imagenet-1k y un conjunto de datos faciales recién ensamblado. Los detalles de uso de estos conjuntos de datos se proporcionan a continuación. Aparte de escalar las imágenes de entrenamiento al rango [-1, 1] de la función de activación tanh, no se realizó ningún preprocesamiento en las imágenes de entrenamiento. Todos los modelos se entrenan utilizando el descenso de gradiente estocástico (SGD) de mini lotes, con un tamaño de mini lote de 128. Todos los pesos se inicializaron a partir de una distribución normal centrada en cero con una desviación estándar de 0,02. En LeakyReLU, la pendiente de fuga se establece en 0,2 para todos los modelos. Si bien trabajos anteriores de GAN han utilizado el impulso para acelerar el entrenamiento, nosotros utilizamos el optimizador Adam (Kingma & Ba, 2014) y ajustamos los hiperparámetros. Descubrimos que la tasa de aprendizaje sugerida de 0,001 era demasiado alta y utilizamos 0,0002 en su lugar. Además, encontramos que mantener el término de impulso β1 en el valor sugerido de 0,9 conduce a un entrenamiento entrecortado e inestable, mientras que reducirlo a 0,5 ayuda a estabilizar el entrenamiento.

4.1 LSUN

A medida que ha mejorado la calidad visual de las muestras de los modelos de imágenes generativas, han llamado la atención los problemas de sobreajuste y memoria de las muestras de entrenamiento. Para mostrar cómo nuestro modelo escala con más datos y generación de mayor resolución, entrenamos en el conjunto de datos del dormitorio LSUN, que contiene poco más de 3 millones de ejemplos de entrenamiento. Análisis recientes han demostrado una correlación directa entre la velocidad a la que aprende un modelo y su rendimiento de generalización (Hardt et al., 2015). Mostramos muestras de una época de entrenamiento (Fig. 2), que imitan el aprendizaje en línea, y muestras después de la convergencia (Fig. 3), como una oportunidad para demostrar que nuestro modelo no está simplemente sobreajustando/memorizando muestras de entrenamiento para producir muestras de alta calidad. No se aplica ningún aumento de datos en la imagen.

Figura 2: Dormitorios generados después de una ejecución de entrenamiento en el conjunto de datos. En teoría, el modelo podría aprender a memorizar las muestras de entrenamiento, pero dado que entrenamos con tasas de aprendizaje pequeñas y SGD de mini lotes, esto es experimentalmente poco probable. No conocemos ninguna evidencia empírica previa de efectos en la memoria utilizando SGD y tasas de aprendizaje pequeñas.

Figura 3: Dormitorios generados después del entrenamiento cinco veces. Parece haber evidencia visual de un ajuste insuficiente a través de texturas de ruido repetidas (como el piso de algunas camas) en múltiples muestras.

4.1.1 Deduplicación

Para reducir aún más la posibilidad de que el generador memorice las muestras de entrada (Fig. 2), realizamos un proceso de deduplicación de imágenes simple. Colocamos un codificador automático ReLU regularizado con eliminación de ruido 3072-128-3072 en un recorte central de muestreo reducido de 32 × 32 de las muestras de entrenamiento. Las activaciones de la capa de código resultantes luego se binarizan estableciendo un umbral para las activaciones ReLU, lo que ha demostrado ser una técnica eficaz para preservar la información (Srivastava et al., 2014) y proporciona una forma conveniente de hash semántico que permite la deduplicación en tiempo lineal. La inspección visual de las colisiones de hash muestra una alta precisión, con una tasa estimada de falsos positivos de menos de 1/100. Además, esta técnica detectó y eliminó aproximadamente 275.000 casi duplicados, lo que indica una alta tasa de recuperación.

4.2 Cara

Rastreamos imágenes que contienen rostros a partir de consultas de imágenes web aleatorias. Los nombres de estas personas están tomados de dbpedia y el criterio es que nacieron en la era moderna. Este conjunto de datos tiene 3 millones de imágenes de 10.000 personas. Ejecutamos un detector de rostros OpenCV en estas imágenes, manteniendo una resolución lo suficientemente alta como para obtener alrededor de 350.000 cuadros de rostros. Usamos estas cajas faciales para entrenar. No se aplica ningún aumento de datos en la imagen.

4.3 IMAGENET-1K

Utilizamos Imagenet-1k (Deng et al., 2009) como fuente de imágenes natural para el entrenamiento no supervisado. Entrenamos en el tamaño más pequeño en un cultivo central de 32 × 32. No se aplica ningún aumento de datos en la imagen.

5 Verificación empírica de DCGAN

5.1 Clasificación de CIFAR-10 utilizando GAN como extractor de características

Una técnica común para evaluar la calidad de un algoritmo de aprendizaje de representación no supervisado es aplicarlo como extractor de características a un conjunto de datos supervisado y evaluar el rendimiento de un modelo lineal basado en estas características.

En el conjunto de datos CIFAR-10, un canal de extracción de características de una sola capa que utiliza K-means como algoritmo de aprendizaje de características ha demostrado un rendimiento de referencia muy sólido. Cuando se utiliza una gran cantidad de mapas de características (4800), esta técnica logra una precisión del 80,6%. Una extensión multicapa no supervisada del algoritmo subyacente logró una precisión del 82,0% (Coates y Ng, 2011). Para evaluar la calidad de las representaciones aprendidas por DCGAN para tareas supervisadas, entrenamos en Imagenet-1k, luego usamos las características convolucionales de todas las capas del discriminador para agrupar al máximo las representaciones de cada capa, lo que da como resultado una cuadrícula espacial de 4 × 4. Luego, estas características se aplanan y concatenan para formar un vector de 28672 dimensiones, después de lo cual se entrena en él un clasificador lineal L2-SVM regularizado. Esto logra una precisión del 82,8%, superando todos los métodos basados ​​en K-medias. Vale la pena señalar que el discriminador tiene menos mapas de características (512 en la capa más alta) en comparación con las técnicas basadas en K-medias, pero debido a las múltiples capas de ubicaciones espaciales de 4 × 4, el resultado es mayor en el tamaño total del vector de características. . El rendimiento de las DCGAN sigue siendo inferior al de las CNN de ejemplo (Dosovitskiy et al., 2015), que es una forma no supervisada de entrenar CNN discriminativas normales para distinguir ejemplos específicamente seleccionados y muy mejorados del conjunto de datos de origen. Se pueden realizar más mejoras ajustando la representación del discriminador, pero dejamos esto como trabajo futuro. Además, dado que nuestro DCGAN nunca ha sido entrenado en CIFAR-10, este experimento también demuestra la solidez del dominio de las características aprendidas.

Tabla 1: Resultados de clasificación en CIFAR-10 utilizando nuestro modelo previamente entrenado. Nuestro DCGAN no está entrenado previamente en CIFAR-10, sino en Imagenet-1k, y luego utiliza estas características para clasificar imágenes CIFAR-10.

5.2 Clasificación de dígitos SVHN usando GAN como extractor de características

En el conjunto de datos Street View House Numbers (SVHN) (Netzer et al., 2011), utilizamos las características del discriminador de DCGAN con fines de supervisión cuando los datos etiquetados son escasos. Siguiendo reglas de preparación de conjuntos de datos similares a las de los experimentos CIFAR-10, separamos un conjunto de validación de 10,000 muestras del conjunto no adicional y lo usamos para toda la selección de hiperparámetros y modelos. Seleccione aleatoriamente 1000 muestras de entrenamiento de categorías distribuidas uniformemente y entrene un clasificador L2-SVM lineal regularizado en el mismo canal de extracción de características utilizado en CIFAR-10. Esto logra un error de prueba del 22,48%, mejorando otra modificación de las CNN destinada a explotar datos sin etiquetar (Zhao et al., 2015). Además, verificamos que la arquitectura CNN utilizada en DCGAN no es el principal contribuyente al rendimiento del modelo entrenando una CNN puramente supervisada con los mismos datos y usando la misma arquitectura realizando una optimización de búsqueda aleatoria en 64 pruebas de hiperparámetros. Este modelo (Bergstra & Bengio , 2012). Logra un error de validación superior del 28,87%.

6 Estudiar y visualizar la estructura interna de una red

Estudiamos generadores y discriminadores ya entrenados de varias maneras. No realizamos ningún tipo de búsqueda de vecino más cercano en el conjunto de entrenamiento. Los píxeles o los vecinos más cercanos en el espacio de características son fácilmente engañados por pequeñas transformaciones de imágenes (Theis et al., 2015). Tampoco utilizamos la métrica de probabilidad logarítmica para evaluar los modelos cuantitativamente, ya que es una métrica de evaluación deficiente (Theis et al., 2015).

Tabla 2: Clasificación de SVHN con 1000 etiquetas

6.1 Caminar en el espacio latente

El primer experimento que realizamos fue comprender la estructura del espacio latente. Recorrer la variedad aprendida a menudo puede informarnos sobre signos de memorización (si hay transiciones repentinas) y cuán jerárquicamente colapsa el espacio. Si caminar en este espacio latente da como resultado cambios semánticos en la generación de imágenes (como la adición y eliminación de objetos), podemos inferir que el modelo ha aprendido representaciones relevantes e interesantes. Los resultados se muestran en la Figura 4.

Figura 4: Filas superiores: la interpolación entre 9 puntos aleatorios en Z muestra que el espacio aprendido tiene transiciones suaves y cada imagen en el espacio se parece a un dormitorio. En la fila 6, puedes ver una habitación sin ventanas que lentamente se convierte en una habitación con enormes ventanales. En la línea 10, puedes ver lo que parece ser un televisor convirtiéndose lentamente en una ventana.

6.2 Visualización de las características del discriminador

Trabajos anteriores han demostrado que el entrenamiento supervisado de CNN en grandes conjuntos de datos de imágenes puede generar características aprendidas muy poderosas (Zeiler y Fergus, 2014). Además, las CNN supervisadas para la clasificación de escenas pueden aprender detectores de objetos (Oquab et al., 2014). Demostramos que un DCGAN entrenado sin supervisión en un gran conjunto de datos de imágenes también puede aprender una variedad de características interesantes. Utilizando la retropropagación guiada como se propone en (Springenberg et al., 2014), mostramos en la Figura 5 la activación de características aprendidas por el discriminador en partes típicas de un dormitorio, como una cama y ventanas. A modo de comparación, presentamos en la misma figura una línea base de características inicializadas aleatoriamente que no activan nada semánticamente relevante o interesante.

Figura 5: A la derecha se muestra una visualización de retropropagación guiada de la respuesta axial máxima de las primeras 6 características convolucionales aprendidas en la última capa convolucional del discriminador. Tenga en cuenta que una cantidad considerable de funciones responden a las camas: este es el objeto central en el conjunto de datos de dormitorios de LSUN. A la izquierda hay una línea base con un filtro aleatorio. En comparación con las respuestas anteriores, aquí hay poca discriminación y estructura aleatoria.

6.3 Manipulación de representaciones del generador

6.3.1 Olvidé dibujar algunos objetos

Además de las representaciones aprendidas por el discriminador, también existe el problema de las representaciones aprendidas por el generador. La calidad de las muestras indica que el generador aprendió representaciones específicas de objetos de los principales componentes de la escena, como camas, ventanas, luces, puertas y muebles diversos. Para explorar la forma de estas representaciones, realizamos un experimento intentando eliminar por completo las ventanas del generador.

En 150 muestras, se dibujan a mano 52 cuadros delimitadores de ventanas. En la segunda característica de la capa convolucional más alta, se ajustó una regresión logística para predecir si la activación de la característica está dentro de una ventana utilizando el criterio de que la activación dentro del cuadro delimitador dibujado es positiva y una muestra aleatoria de la misma imagen es negativa. encendido o no). Usando este modelo simple, todos los mapas de características con pesos mayores que cero (200 en total) se eliminan de todas las ubicaciones espaciales. Luego, se generaron nuevas muestras aleatorias con y sin eliminación del mapa de características.

Las imágenes generadas con y sin pérdida de ventanas se muestran en la Fig. 6. Curiosamente, la red en su mayoría se olvidó de dibujar ventanas en los dormitorios, reemplazándolas con otros objetos.

Figura 6: Fila superior: muestras no modificadas del modelo. Fila inferior: la misma muestra generada después de eliminar el filtro "windows". Algunas ventanas fueron eliminadas, otras se transformaron en objetos visualmente similares, como puertas y espejos. A pesar de la caída en la calidad visual, la composición general de la escena sigue siendo similar, lo que implica que el generador hace un buen trabajo al desacoplar la representación de la escena de la representación del objeto. Se pueden realizar experimentos extendidos para eliminar otros objetos de la imagen y modificar los objetos dibujados por el generador.

6.3.2 Aritmética vectorial en muestras de caras

En el contexto de la evaluación de representaciones de palabras aprendidas, Mikolov y otros (2013) muestran que operaciones aritméticas simples revelan ricas estructuras lineales en el espacio de representación. Un ejemplo clásico muestra que el resultado de vector("Rey") - vector("Hombre") + vector("Mujer") es un vector que es el vecino más cercano al vector Reina. Investigamos si existe una estructura similar en la representación Z de nuestro generador. Realizamos operaciones aritméticas similares en los vectores Z de un conjunto típico de muestras de conceptos visuales. Los experimentos basados ​​en una sola muestra de cada concepto eran inestables, pero el promedio de los vectores Z de tres muestras produjo resultados de generación consistentes y estables que seguían semánticamente la aritmética. Además de la manipulación de objetos que se muestra en (Fig. 7), mostramos que la postura facial también se modela linealmente en el espacio Z (Fig. 8).

Figura 7: Aritmética vectorial para conceptos visuales. Para cada columna, se promedian los vectores Z de las muestras. Luego se realizan operaciones aritméticas en el vector medio para crear un nuevo vector Y. La muestra en el medio a la derecha se produjo alimentando Y como entrada al generador. Para demostrar las capacidades de interpolación del generador, se agregaron a Y muestras de ruido uniforme (con una escala de ±0,25), lo que produjo otras 8 muestras. La aplicación de aritmética en el espacio de entrada (dos ejemplos a continuación) produce una superposición ruidosa debido a la desalineación.

Figura 8: Se crea un vector de "giro" promediando cuatro muestras de caras que miran hacia la izquierda y hacia la derecha. Al agregar interpolación a muestras aleatorias en este eje, podemos transformar sus poses de manera confiable.

Estas demostraciones muestran que se pueden desarrollar aplicaciones interesantes utilizando las representaciones Z aprendidas por nuestro modelo. Se ha demostrado previamente que los modelos generativos condicionales pueden aprender a modelar de manera convincente propiedades de objetos como escala, rotación y posición (Dosovitskiy et al., 2014). Hasta donde sabemos, esta es la primera demostración en un modelo puramente no supervisado. Una mayor exploración y desarrollo de la aritmética vectorial descrita anteriormente puede reducir sustancialmente la cantidad de datos necesarios para la generación condicional para modelar distribuciones de imágenes complejas.

7 Conclusiones y trabajo futuro

Proponemos una arquitectura más estable para entrenar redes generativas adversarias y proporcionamos evidencia de que las redes adversarias aprenden buenas representaciones de imágenes para el aprendizaje supervisado y el modelado generativo. También hay algunas formas de inestabilidad del modelo: notamos que a medida que los modelos se entrenaban con el tiempo, a veces colapsaban parte de los filtros en un solo modo oscilatorio. Es necesario seguir trabajando para abordar esta inestabilidad. Pensamos que sería interesante extender este marco a otros dominios como video (para predicción de fotogramas) y audio (funciones previamente entrenadas para síntesis de voz). También sería interesante realizar más estudios sobre las propiedades del espacio latente aprendido.

gracias

En este trabajo hemos sido muy afortunados y agradecidos por todos los consejos y orientaciones que hemos recibido, especialmente los de Ian Goodfellow, Tobias Springenberg, Arthur Szlam y Durk Kingma. Además, nos gustaría agradecer a todos los colegas de indico por su apoyo, recursos y comunicación, especialmente a otros dos miembros del equipo de investigación de indico, Dan Kuster y Nathan Lintz. Finalmente, nos gustaría agradecer a Nvidia por donar las GPU Titan-X utilizadas en este trabajo.

referencias

  1. Bergstra, James y Bengio, Yoshua (2012): Búsqueda aleatoria para optimización de hiperparámetros. JMLR .
  2. Coates, Adam y Ng, Andrew (2011), Selección de campos receptivos en redes profundas. NIPS .
  3. Coates, Adam y Ng, Andrew Y. (2012) Aprendizaje de representaciones de características utilizando k-medias. En Redes neuronales: conocimientos técnicos del comercio (págs. 561–580). Saltador.
  4. Deng, Jia, Dong, Wei, Socher, Richard, Li, Li-Jia, Li, Kai y Fei-Fei, Li (2009) ImageNet: una base de datos de imágenes jerárquicas a gran escala. En Visión por computadora y reconocimiento de patrones, 2009. Sociedad de Computación IEEE (págs. 248–255). IEEE.
  5. Denton, Emily, Chintala, Soumith, Szlam, Arthur y Fergus, Rob. (2015): Modelos de imágenes generativas profundas que utilizan redes adversarias de pirámides laplacianas. arXiv preimpresión arXiv:1506.05751 .
  6. Dosovitskiy, Alexey, Springenberg, Jost Tobias y Brox, Thomas (2014): Generación de sillas mediante redes neuronales convolucionales. arXiv preimpresión arXiv:1411.5928 .
  7. Dosovitskiy, Alexey et al. (2015) Aprendizaje discriminativo de funciones no supervisadas con redes neuronales convolucionales en muestra. Análisis de patrones e inteligencia artificial, Transacciones IEEE en el volumen 99. IEEE.
  8. Efros, Alexei et al. (1999) Muestreo no paramétrico para síntesis de textura. En Computer Vision, Actas de la Séptima Conferencia Internacional IEEE , Vol. 2, págs. IEEE.
  9. Freeman, William T. y col. (2002) Superresolución basada en ejemplos. Aplicaciones y gráficos por computadora, IEEE , 22(2):56–65.
  10. Goodfellow, Ian J. y col. (2013) Redes Maxout. arXiv preimpresión arXiv:1302.4389 .
  11. Goodfellow, Ian J. y col. (2014) Redes generativas de confrontación. NIPS .
  12. Gregor, Karol et al. (2015) Sorteo: una red neuronal recurrente para la generación de imágenes. arXiv preimpresión arXiv:1502.04623 .
  13. Hardt, Moritz et al. (2015) Entrene más rápido, generalice mejor: estabilidad en el descenso de gradiente estocástico. arXiv preimpresión arXiv:1509.01240 .
  14. Hauberg, Sren et al. (2015) Soñando con más datos: distribuciones múltiples diferenciales dependientes de clases para el aumento de datos de aprendizaje. arXiv preimpresión arXiv:1510.02795 .
  15. Hays, James y Efros, Alexei A. (2007) Completación de escenas utilizando millones de fotografías. Transacciones ACM sobre gráficos (TOG) , 26(3):4.
  16. Ioffe, Sergey y Szegedy, Christian (2015), Normalización de lotes: aceleración del entrenamiento profundo de la red mediante la reducción del cambio de covariables internas. arXiv preimpresión arXiv:1502.03167 .
  17. Kingma, Diederik P. y Ba, Jimmy Lei (2014), Adam: un método de optimización estocástica. arXiv preimpresión arXiv:1412.6980 .
  18. Kingma, Diederik P. y Welling, Max (2013): Autocodificación bayesiana variacional. arXiv preimpresión arXiv:1312.6114 .
  19. Lee, Honglak y cols. (2009) Redes convolucionales de creencias profundas para el aprendizaje escalable no supervisado de representaciones jerárquicas. En Actas de la 26.ª Conferencia Internacional sobre Aprendizaje Automático , págs. 609–616. ACM.
  20. Loosli, Gaëlle et al. (2007) Entrenamiento de máquinas de vectores de soporte invariantes mediante muestreo selectivo. En Máquinas nucleares a gran escala , págs. 301–320. MIT Press, Cambridge, MA.
  21. Maas, Andrew L. y col. (2013) La no linealidad del rectificador mejora los modelos acústicos de redes neuronales. Actas de la conferencia ICML , Vol. 30.
  22. Mikolov, Tomas et al. (2013) Representaciones distributivas de palabras y frases y su composicionalidad. Avances en los sistemas de procesamiento de información neuronal , págs. 3111–3119.
  23. Mordvintsev, Alexander et al. Introspeccionismo: una exploración más profunda de las redes neuronales. Blog de investigación de Google. [en línea] Consultado: 17 de junio de 2015.
  24. Nair, Vinod y Hinton, Geoffrey E. (2010).Las unidades lineales rectificadas mejoran las máquinas Boltzmann restringidas. Actas de la 27ª Conferencia Internacional Anual sobre Aprendizaje Automático (ICML-10) , págs.
  25. Netzer, Yuval et al. (2011) Lectura de dígitos en imágenes naturales mediante el aprendizaje de funciones no supervisado. En Taller NIPS sobre aprendizaje profundo y aprendizaje de funciones no supervisadas , volumen 2011, página 5. Granada, España.
  26. Oquab, M. y col. (2014) Aprendizaje y transferencia de representaciones de imágenes de nivel medio mediante redes neuronales convolucionales. en CVPR .
  27. Portilla, Javier & Simoncelli, Eero P. (2000) Modelos de textura paramétricos basados ​​en estadísticas conjuntas de coeficientes wavelet complejos. Revista internacional de visión por computadora , 40 (1): 49–70.
  28. Rasmus, Antti et al. (2015) Aprendizaje semisupervisado con redes de escalera de ascenso de gradientes. arXiv preimpresión arXiv:1507.02672 .
  29. Sohl-Dickstein, Jascha et al. (2015) Aprendizaje profundo no supervisado mediante termodinámica de desequilibrio. arXiv preimpresión arXiv:1503.03585 .
  30. Springenberg, Jost Tobias et al. (2014) En busca de la simplicidad: redes totalmente convolucionales. arXiv preimpresión arXiv:1412.6806 .
  31. Srivastava, Rupesh Kumar et al. (2014) Comprensión de las redes competitivas locales. arXiv preimpresión arXiv:1410.1165 .
  32. Theis, L. et al. (2015) Notas sobre la evaluación del modelo generativo. arXiv:1511.01844 .
  33. Vicente, Pascal y otros. (2010) Codificadores automáticos de eliminación de ruido apilados: aprendizaje de representaciones útiles en redes profundas con criterios de eliminación de ruido local. Revista de investigación sobre aprendizaje automático , 11:3371–3408.
  34. Xu, Bing y cols. (2015) Evaluación empírica de activaciones rectificadas en redes convolucionales. arXiv preimpresión arXiv:1505.00853 .
  35. Yu, Fisher y cols. (2015) Creación de conjuntos de datos de imágenes a gran escala mediante aprendizaje profundo con personas en el circuito. arXiv preimpresión arXiv:1506.03365 .
  36. Zeiler, Matthew D y Fergus, Rob. (2014): Visualización y comprensión de redes convolucionales. En Visión por computadora - ECCV 2014 , págs. 818–833. Saltador.
  37. Zhao, Junbo et al. (2015) Apilamiento de codificadores automáticos qué y dónde. arXiv preimpresión arXiv:1506.02351 .

REFERENCIAS

  1. Bergstra, James y Bengio, Yoshua. (2012). Búsqueda aleatoria de optimización de hiperparámetros. JMLR .
  2. Coates, Adam y Ng, Andrew. (2011). Selección de campos receptivos en redes profundas. NIPS .
  3. Coates, Adam y Ng, Andrew Y. (2012). Aprendizaje de representaciones de características con k-medias. En Redes neuronales: trucos del oficio (págs. 561–580). Saltador.
  4. Deng, Jia, Dong, Wei, Socher, Richard, Li, Li-Jia, Li, Kai y Fei-Fei, Li (2009). Imagenet: una base de datos de imágenes jerárquicas a gran escala. En Visión por computadora y reconocimiento de patrones , 2009. CVPR 2009. Conferencia IEEE sobre (págs. 248–255).
  5. Denton, Emily, Chintala, Soumith, Szlam, Arthur y Fergus, Rob. (2015). Modelos de imágenes generativas profundas utilizando una pirámide laplaciana de redes adversarias. arXiv preimpresión arXiv:1506.05751 .
  6. Dosovitskiy, Alexey, Springenberg, Jost Tobias y Brox, Thomas. (2014). Aprender a generar sillas con redes neuronales convolucionales. arXiv preimpresión arXiv:1411.5928 .
  7. Dosovitskiy, Alexey et al. (2015). Aprendizaje discriminativo de funciones no supervisadas con redes neuronales convolucionales ejemplares. Análisis de patrones e inteligencia artificial, IEEE Transactions en , volumen 99. IEEE.
  8. Efros, Alexei et al. (1999). Síntesis de texturas mediante muestreo no paramétrico. En Computer Vision, Actas de la Séptima Conferencia Internacional IEEE sobre , volumen 2, págs. IEEE.
  9. Freeman, William T. y col. (2002). Superresolución basada en ejemplos. Aplicaciones y gráficos por computadora, IEEE , 22(2):56–65.
  10. Goodfellow, Ian J. y col. (2013). Redes al máximo. arXiv preimpresión arXiv:1302.4389 .
  11. Goodfellow, Ian J. y col. (2014). Redes generativas adversarias. NIPS .
  12. Gregor, Karol et al. (2015). Draw: una red neuronal recurrente para la generación de imágenes. arXiv preimpresión arXiv:1502.04623 .
  13. Hardt, Moritz et al. (2015). Entrene más rápido, generalice mejor: estabilidad del descenso de gradiente estocástico. arXiv preimpresión arXiv:1509.01240 .
  14. Hauberg, Sren et al. (2015). Soñar con más datos: distribuciones dependientes de clases sobre difeomorfismos para el aumento de datos aprendidos. arXiv preimpresión arXiv:1510.02795 .
  15. Hays, James y Efros, Alexei A. (2007). Completación de escenas utilizando millones de fotografías. Transacciones ACM sobre gráficos (TOG) , 26(3):4.
  16. Ioffe, Sergey y Szegedy, Christian. (2015). Normalización de lotes: acelerar el entrenamiento profundo de la red al reducir el cambio de covariables interno. arXiv preimpresión arXiv:1502.03167 .
  17. Kingma, Diederik P. y Ba, Jimmy Lei. (2014). Adam: un método para la optimización estocástica. arXiv preimpresión arXiv:1412.6980 .
  18. Kingma, Diederik P. y Welling, Max. (2013). Bayes variacionales de codificación automática. arXiv preimpresión arXiv:1312.6114 .
  19. Lee, Honglak y cols. (2009). Redes convolucionales de creencias profundas para el aprendizaje escalable no supervisado de representaciones jerárquicas. En Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático , págs. ACM.
  20. Loosli, Gaëlle et al. (2007). Entrenamiento de máquinas de vectores de soporte invariantes mediante muestreo selectivo. En Máquinas de núcleo a gran escala , págs. 301–320. MIT Press, Cambridge, MA.
  21. Maas, Andrew L. y col. (2013). Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales. Proc. ICML , volumen 30.
  22. Mikolov, Tomas et al. (2013). Representaciones distribuidas de palabras y frases y su composicionalidad. En Avances en los sistemas de procesamiento de información neuronal , págs. 3111–3119.
  23. Mordvintsev, Alexander et al. Incepcionismo: Profundizando en las redes neuronales. Blog de investigación de Google. [En línea]. Consultado: 2015-06-17.
  24. Nair, Vinod y Hinton, Geoffrey E. (2010). Las unidades lineales rectificadas mejoran las máquinas Boltzmann restringidas. Actas de la 27.ª Conferencia Internacional sobre Aprendizaje Automático (ICML-10) , págs. 807–814.
  25. Netzer, Yuval et al. (2011). Lectura de dígitos en imágenes naturales con aprendizaje de funciones no supervisado. En Taller NIPS sobre aprendizaje profundo y aprendizaje de funciones no supervisadas , volumen 2011, págs. 5. Granada, España.
  26. Oquab, M. y col. (2014). Aprender y transferir representaciones de imágenes de nivel medio utilizando redes neuronales convolucionales. En CVPR .
  27. Portilla, Javier & Simoncelli, Eero P. (2000). Un modelo de textura paramétrico basado en estadísticas conjuntas de coeficientes wavelet complejos. Revista internacional de visión por computadora , 40(1):49–70.
  28. Rasmus, Antti et al. (2015). Aprendizaje semisupervisado con red de escalera. arXiv preimpresión arXiv:1507.02672 .
  29. Sohl-Dickstein, Jascha et al. (2015). Aprendizaje profundo no supervisado utilizando termodinámica de desequilibrio. arXiv preimpresión arXiv:1503.03585 .
  30. Springenberg, Jost Tobias et al. (2014). Luchando por la simplicidad: la red totalmente convolucional. arXiv preimpresión arXiv:1412.6806 .
  31. Srivastava, Rupesh Kumar et al. (2014). Comprender las redes competitivas localmente. arXiv preimpresión arXiv:1410.1165 .
  32. Theis, L. et al. (2015). Una nota sobre la evaluación de modelos generativos. arXiv:1511.01844 .
  33. Vicente, Pascal y otros. (2010). Codificadores automáticos de eliminación de ruido apilados: aprendizaje de representaciones útiles en una red profunda con un criterio de eliminación de ruido local. La revista de investigación sobre aprendizaje automático , 11:3371–3408.
  34. Xu, Bing y cols. (2015). Evaluación empírica de activaciones rectificadas en red convolucional. arXiv preimpresión arXiv:1505.00853 .
  35. Yu, Fisher y cols. (2015). Construcción de un conjunto de datos de imágenes a gran escala mediante aprendizaje profundo con humanos en el circuito. arXiv preimpresión arXiv:1506.03365 .
  36. Zeiler, Matthew D y Fergus, Rob. (2014). Visualizar y comprender redes convolucionales. En Computer Vision – ECCV 2014 , págs. 818–833. Saltador.
  37. Zhao, Junbo et al. (2015). Codificadores automáticos apilados de qué y dónde. arXiv preimpresión arXiv:1506.02351 .

8 Material adicional

8.1 Evaluación de la capacidad de DCGAN para capturar distribuciones de datos

Proponemos aplicar métricas de clasificación estándar en una versión condicional de nuestro modelo, evaluando la distribución condicional aprendida. Entrenamos un DCGAN en el conjunto de datos MNIST (usando 10,000 muestras del mismo como conjunto de validación), junto con una línea de base GAN invariante de permutación, y evaluamos estos modelos usando clasificadores de vecinos más cercanos, comparando datos reales con un conjunto de muestras condicionales generadas. Descubrimos que eliminar los parámetros de escala y sesgo de la normalización por lotes conduce a mejores resultados para ambos modelos. Especulamos que el ruido introducido por la normalización por lotes ayuda a los modelos generativos a explorar mejor la distribución de datos subyacente y generar muestras a partir de ellos. Los resultados se presentan en la Tabla 3, que compara nuestro modelo con otras técnicas. El modelo DCGAN logra el mismo nivel de error de prueba que el clasificador vecino más cercano instalado en el conjunto de datos de entrenamiento, lo que indica que el modelo DCGAN hace un excelente trabajo al modelar la distribución condicional de este conjunto de datos. Con un millón de muestras por clase, el modelo DCGAN supera a InfiMNIST (Loosli et al., 2007), un canal de aumento de datos desarrollado manualmente que utiliza traducción y deformación elástica de muestras de entrenamiento. DCGAN supera una técnica de aumento de datos generativos probabilísticos (Hauberg et al., 2015) que utiliza transformaciones aprendidas por clase, aunque es más general ya que modela directamente los datos en lugar de transformaciones de los datos.

Tabla 3: Resultados de clasificación de vecinos más cercanos

Figura 9: Gráficos de ejemplo uno al lado del otro (de izquierda a derecha) que muestran el conjunto de datos MNIST, la generación de GAN de referencia y los resultados de nuestra generación de DCGAN.

Figura 10: Más imágenes generadas de nuestra cara DCGAN.

Figura 11: Imágenes generadas de un DCGAN entrenado en el conjunto de datos Imagenet-1k.

Supongo que te gusta

Origin blog.csdn.net/I_am_Tony_Stark/article/details/132250388
Recomendado
Clasificación