Método de generación de datos de red antagónica generativa basada en características espaciales

Fuente: Revista de Electrónica y Tecnología de la Información

Autores: Sun Lei, Yang Yu, Mao Xiuqing, Wang Xiaoqin, Li Jiaxin

Resumen

La red adversa generativa (GAN) tradicional ignora la representación y la información estructural de las características originales cuando el mapa de características es grande y los píxeles de la imagen generada carecen de correlación de largo alcance, lo que da como resultado imágenes generadas de baja calidad. Con el fin de mejorar aún más la calidad de las imágenes generadas, este documento propone un método de generación de datos de red antagónica generativa basado en características espaciales (SF-GAN). Este método primero agrega la red de pirámide espacial al generador y al discriminador para capturar mejor la información de descripción importante, como el borde de la imagen; luego, el generador y el discriminador se mejoran para modelar la correlación de larga distancia entre píxeles. Usando conjuntos de datos a pequeña escala como CelebA, SVHN y CIFAR-10 para realizar experimentos, se demuestra que el método propuesto se compara con la red de confrontación de generación de penalización de gradiente (WGAN) a través de la evaluación cualitativa y cuantitativa de la puntuación de inicio (IS) y Freche distancia (FID).-GP), Self-Atention Generative Adversarial Network (SAGAN) puede hacer que las imágenes generadas tengan mayor calidad. Y los experimentos demuestran que los datos generados por este método pueden mejorar aún más el efecto de entrenamiento del modelo de clasificación.

Palabras clave

Red adversaria generativa / Red piramidal espacial / Mejora de funciones / Mapa de funciones

1. Introducción

Con el desarrollo continuo de la tecnología de inteligencia artificial, han surgido cada vez más tareas posteriores, como la clasificación [1], el reconocimiento facial [2], la detección de objetivos [3,4], etc., y la mayoría de estas tareas dependen de una gran cantidad de tareas. cantidad de datos Incluyendo imagen, voz, texto y otros datos. Sin embargo, en el mundo real, es difícil obtener datos en campos especiales como atención médica, seguridad, aviación y EEG, y el costo es extremadamente alto. La falta de datos tendrá un gran impacto negativo en el entrenamiento del modelo, por lo que es necesario generar datos falsos más cercanos a los datos reales a través de la tecnología de generación de datos, para mejorar el efecto de entrenamiento del modelo. En el campo de la visión artificial, la tecnología de generación de imágenes siempre ha sido un tema candente de investigación. Los modelos generativos tradicionales incluyen Restricted Boltzmann Machines (RBM) [5], Deep Belief Network (DBN) [6], Auto-Encoding Variational (AEV) [7], etc. Estos métodos son computacionalmente complejos y tienen efectos de generación limitados.

En 2014, Goodfellow et al [8] propusieron un modelo generativo basado en la teoría de juegos, es decir, Generative Adversarial Network (GAN), que utiliza generadores y discriminadores para el entrenamiento de confrontación, y actualiza los pesos de la red mediante backpropagation. fácil de calcular y el efecto es notable, lo que promueve en gran medida el desarrollo del campo de la generación de imágenes, pero el proceso de formación es extremadamente inestable. La red neuronal convolucional (CNN) [9] ha sido ampliamente utilizada en el campo del aprendizaje profundo. Las clásicas redes antagónicas generativas de convolución profunda (DCGAN) [10] combinan el perceptrón multicapa tradicional de GAN, reemplazándolo con CNN, introduciendo CNN en el generador y discriminador, este modelo mejora aún más la capacidad de aprendizaje de GAN y mejora la calidad de las imágenes generadas, pero existe el fenómeno de que el entrenamiento es inestable y propenso al colapso de modo. La Red Adversaria Generativa de Wasserstein (WGAN) propuesta por Arjovsky et al [11] en 2017 reemplaza la distancia de divergencia de Jensen-Shannon (JS) [12] con la distancia de Wasserstein, que puede aliviar una mejor medida de la divergencia entre las dos distribuciones. el problema de la inestabilidad del entrenamiento GAN hasta cierto punto, pero este algoritmo realmente no limita el discriminador a la función 1-Lipschitz (función 1-Lipschitz) [13] no proporciona estrictamente el método de cálculo de la distancia de Wasserstein. La red de confrontación de generación de pena de gradiente propuesta por Gulrajani et al [14] (entrenamiento mejorado de Wasserstein GAN, WGAN-GP) pertenece a la versión mejorada de WGAN. Utiliza la penalización de gradiente para realizar la restricción de función aproximada de 1-Lipschitz en el discriminador, lo que hace que el entrenamiento GAN sea más estable, converge más rápido y puede generar muestras de mayor calidad, pero Solo se penaliza la x del área donde el módulo del gradiente es mayor que 1, y no resuelve fundamentalmente el problema de la limitación de la función 1-Lipschitz del discriminador. Zhang et al. [15] propusieron una red de confrontación de generación de autoatención (Self-Atención GAN, SAGAN) que combina el mecanismo de atención con GAN. Este modelo mejorado puede manejar bien las dependencias de largo alcance y multinivel, y generar imágenes más coordinadas, pero todavía tiene el problema de la débil capacidad para modelar la correlación de larga distancia entre píxeles. La literatura [16] propone una red de atención de pirámide espacial para explorar el papel de los módulos de atención en el reconocimiento de imágenes, lo que mejora el rendimiento de la red básica al agregar módulos de pirámide espacial horizontalmente. Ding Bin y otros [17] propusieron un método de mejora de datos de ecos parásitos marinos basado en redes antagónicas generativas profundas, mejorando el marco GAN tradicional para entrenar al generador y al discriminador. Cao Zhiyi y otros [18] propusieron un modelo GAN mejorado para el algoritmo de restauración facial, pero la desventaja es que debe basarse en una gran cantidad de muestras de entrenamiento.

Aunque hoy en día se han derivado varios modelos de GAN, todavía existen problemas como la generación de imágenes poco claras y de baja calidad. Además, algunos modelos GAN en su mayoría deben basarse en una gran cantidad de muestras de entrenamiento y, en algunos campos especiales, la adquisición de conjuntos de datos es relativamente confidencial y difícil, por lo que es necesario generar imágenes de mayor calidad a partir de muestras pequeñas. el foco de investigación de este trabajo. Las principales contribuciones de este trabajo son:

  • (1) Se propone un método de generación de datos de red antagónica generativa basada en características espaciales, que genera datos de imagen sobre la base de muestras pequeñas y no introduce una gran sobrecarga de tiempo al generar imágenes de mayor calidad.

  • (2) Introducir la función de pérdida de penalización de gradiente en el entrenamiento de confrontación, lo que hace que el proceso de entrenamiento sea más estable y converja más rápido.

  • (3) Se llevó a cabo una gran cantidad de experimentos comparativos en los conjuntos de datos CelebA, SVHN y CIFAR-10, y se utilizó la evaluación cuantitativa clásica de Puntaje de inicio (puntaje de inicio, IS) y Distancia de inicio de Frechet (Distancia de inicio de Frechet, FID) para verificar el propuesto la eficacia del método. Y se diseñó un experimento de clasificación para verificar aún más que los datos de imagen generados en este documento pueden mejorar el efecto de entrenamiento del modelo profundo existente.

2. Trabajo relacionado

2.1    Generación de redes adversarias

GAN está compuesto por un generador y un discriminador. El generador trata de capturar la distribución real en el conjunto de datos de aprendizaje. El discriminador mejora la capacidad de distinguir la autenticidad de las imágenes en la confrontación continua con el generador. Los dos son un proceso de continuo confrontación del juego. El diagrama esquemático de GAN se muestra en la Figura 1.

Figura 1 Diagrama esquemático de la estructura GAN

La Figura 1 es un diagrama esquemático de la estructura básica de GAN, donde el generador está marcado como G y el discriminador está marcado como D. La entrada de G es la variable aleatoria Z del espacio latente, y las muestras generadas son la salida. El objetivo del entrenamiento es mejorar la relación entre las muestras generadas y las muestras reales, la similitud hace imposible ser discriminado por D. La entrada de D son muestras reales y muestras generadas, y la salida final del resultado discriminante es verdadero o falso, y su objetivo de entrenamiento es distinguir las muestras reales de las muestras generadas. La función objetivo de la GAN original es

   (1)    

Entre ellos, pdata(x) representa la distribución de muestras reales, pz(z) representa la distribución de muestras generadas y D(x) es la probabilidad de imágenes reales, que es un número real de 0 a 1. El objetivo del entrenamiento es minimizar la distancia entre pz(z) y pdata(x) y maximizar la precisión de las muestras discriminantes D. Puede verse en la fórmula (1) que en el proceso de entrenamiento del discriminador, se espera maximizar la función objetivo para que la probabilidad de salida de D(x) se acerque a 1, y el valor de probabilidad de salida de D(G(z )) se acerca a 0; cuando el generador Durante el entrenamiento, se espera minimizar la función objetivo, es decir, la probabilidad de salida de D(G(z)) se acerca a 1, de modo que la imagen generada por el generador no se puede juzgar como verdadera o falso por el discriminador. Cuando el entrenamiento de confrontación se lleva a cabo hasta el final, idealmente, el valor de probabilidad de salida del discriminador para la imagen generada y la imagen real es cercano a 0.5 En este momento, el discriminador no podrá juzgar la autenticidad de la imagen. generado por el generador, y el generador podrá hacer un buen trabajo Ajuste la verdadera distribución del conjunto de datos para generar imágenes que parecen reales.

2.2     Redes antagónicas generativas convolucionales profundas

DCGAN introduce CNN en el generador y discriminador. Con la ayuda de las capacidades expresivas y de ajuste más fuertes de CNN, mejora en gran medida la capacidad de generar imágenes. Su idea utiliza principalmente la teoría básica del modelo GAN original. Comparado con el GAN ​​original, la mejora de DCGAN incluye los siguientes aspectos:

  • (1) Todas las capas de agrupación se cancelan y la convolución transpuesta [19] se usa en el generador para el muestreo superior;

  • (2) Además de la capa de salida del generador y la capa de entrada del discriminador, la normalización por lotes (Batch Normalization, BN) [20] se utiliza en otras capas de la red;

  • (3) A excepción de la última capa en el generador, la Unidad Lineal Rectificada (ReLU) [21] se usa como función de activación, y la última capa usa la función de activación tangente hiperbólica (Tanh) [22]; el discriminante Además hasta la última capa, Leaky ReLU [23] se usa como función de activación, y la última capa usa la función de activación Sigmoid.

DCGAN se usa ampliamente en la generación de imágenes. Mejora en gran medida la estabilidad de entrenamiento de GAN y la calidad de los resultados generados, pero solo mejora la estructura de GAN y no resuelve fundamentalmente el problema de la estabilidad de entrenamiento de GAN. Todavía es necesario equilibrar el tiempos de entrenamiento del generador y del discriminador durante el proceso de entrenamiento.

La figura 2 es un diagrama esquemático del generador DCGAN. El generador recibe un vector de ruido de 100 × 1 representado por Z y, a través de una serie de operaciones de convolución transpuestas, el ruido finalmente se asigna a una imagen de 64 × 64 × 3.

Figura 2 Diagrama esquemático de la estructura del generador DCGAN

3. Red adversaria generativa basada en características espaciales

El SF-GAN propuesto en este documento permite que la red ubique rápidamente el área de generación de claves de la imagen durante el proceso de entrenamiento, suprima la interferencia de ruido en el entrenamiento del modelo, mejore la eficiencia del entrenamiento del modelo de red, mejore el rendimiento del modelo de red, y luego use la función de pérdida de penalización de gradiente para estabilizar. El proceso de entrenamiento mejora la claridad y finura de las imágenes generadas. La figura 3 es el diagrama de marco del modelo de SF-GAN.

Figura 3 Marco modelo de SF-GAN

Como se muestra en la Figura 3, X es el mapa de características inicial, X∈RC×H×W, Z es el mapa de características de salida,

 , donde P representa el mapa de características de salida de la pirámide espacial y S representa el mapa de características de salida después de la mejora de características En la Figura 3, la función de activación, la capa de normalización y otras capas se reemplazan por puntos suspensivos. Después de una serie de convolución, normalización y otras operaciones en el mapa de características inicial, el mapa de características P se obtiene a través del módulo de pirámide espacial, y luego P se somete a una serie de convolución y otras operaciones, y luego las características se mejoran para obtener el mapa de características S, y finalmente la característica El mapa de características mejorado S continúa realizando convolución y otras operaciones para generar el resultado final Z.

Agregue dos módulos en el generador y el discriminador, a partir de dependencias de características simples y aprenda gradualmente dependencias complejas. La Figura 4 muestra el diagrama de flujo de entrenamiento de red de SF-GAN. SM representa el módulo de pirámide espacial y FM representa el módulo de mejora de funciones. A través del entrenamiento del generador y el discriminador, los parámetros se actualizan mediante retropropagación y el generador genera más y más Cuanto más realista es la imagen.

Figura 4 Diagrama de flujo de entrenamiento de la red SF-GAN

3.1    Pirámide espacial

La red de atención del canal existente solo considera la dependencia del canal e ignora la información estructural.La información estructural refleja el marco general de la imagen, incluida información de descripción importante, como el borde de la imagen. Para mejorar la capacidad de expresión de características de CNN, la red residual profunda tradicional (aprendizaje residual profundo para el reconocimiento de imágenes, ResNet) [24] introduce más parámetros y una mayor sobrecarga de tiempo. Agregue la red piramidal al generador y al discriminador para lograr un mejor rendimiento con menos capas de red. La figura 5 es un diagrama esquemático de una estructura de pirámide espacial.

Figura 5 Estructura de pirámide espacial

Las CNN basadas en la atención aplican la agrupación promedio global a cada mapa de características. La agrupación de promedios globales se comporta como un regularizador estructural y evita el sobreajuste. Sin embargo, aplicar la combinación de promedio global a cada mapa de características enfatiza demasiado el efecto de la regularización e ignora la representación y la información estructural de las características originales, especialmente cuando los mapas de características son grandes. Por ejemplo, agregar un mapa de características de 112 × 112 a un promedio daría como resultado una pérdida severa de la capacidad de representación de características, lo que afectaría el aprendizaje de características. La estructura piramidal espacial incluye 3 tamaños diferentes de agrupación promedio adaptativa, que integra la regularización estructural y la información estructural en la ruta de atención, y un perceptrón multicapa aprende mapas de características ponderadas a partir de la salida de la estructura piramidal espacial.

Mapee de manera adaptativa y promedio las características de entrada a 3 escalas: 4 × 4, 2 × 2 y 1 × 1. La agrupación promedio 4 × 4 es para obtener más representación de características e información estructural, la agrupación promedio 1 × 1 es la agrupación promedio global tradicional con fuerte regularización estructural; el objetivo de agrupación promedio 2×2 es una compensación entre la información estructural y la regularización estructural. Modifique estas 3 salidas en 3 vectores 1D y combínelos mediante concatenación para generar vectores de características 1D. La estructura piramidal espacial no solo puede preservar la representación de características, sino también heredar las ventajas de la agrupación promedio global.

Suponiendo que CNN contiene L capas, xl representa la salida de la capa l∈[1,L], P(⋅,⋅) representa la agrupación promedio adaptativa, Ffc(⋅) representa la capa totalmente conectada, C(⋅) representa la conexión operación, σ(⋅) representa la función de activación sigmoidea, R(⋅) representa la función de cambio de tamaño, xl∈RC×W×H es el mapa de características intermedias, luego la fórmula de salida de la estructura piramidal espacial es

   (2)    

Luego, después de pasar a través de un perceptrón multicapa, la salida es

   (3)    

El mapa de atención 1D V extraído de la estructura piramidal espacial se concatena a partir de las salidas de 3 capas de agrupación; sin embargo, no se puede usar para aprender las dependencias de los canales y su expresión no lineal afecta la efectividad del mecanismo de atención. Para abordar esto, se usa un bloque de excitación para modelar V de forma no lineal y generar un mapa de atención 1D, y luego se usa una función de activación sigmoidea para normalizar la salida al rango (0,1). la fórmula es

   (4)    

en,

 , W1 y W2 son las matrices de peso de las dos capas completamente conectadas.

3.2    Mejora de características

Debido a la limitación del tamaño del kernel de convolución, el generador de GAN solo puede capturar la relación de las regiones locales. Con el objetivo de resolver el problema de que las características geométricas de la imagen generada por la GAN original no son obvias y los detalles del área local no son ricos, la mejora de características se aplica tanto al generador como al discriminador para fortalecer las características geométricas generales de la imagen generada y fortalecer la relación entre las características del dominio y las características de larga distancia.

Transforme las características de la imagen de la capa oculta anterior x∈RC×N en dos funciones de espacio de características f,g, donde C es el número de canales y N es el ancho por la altura. f(x), g(x), h(x) son todas convoluciones 1×1, por lo general, un proceso de convolución incluye una función de activación, por lo que se introduce más no linealidad sin cambiar el tamaño de la entrada. El poder expresivo de la red neuronal está mejorado.

, es la matriz de peso aprendida

   (5)    

Como se muestra en la fórmula (5), la salida de f(xi) se transpone y se multiplica por la salida de g(xj), y luego se normaliza mediante softmax para obtener un mapa de características. Como se muestra en la fórmula (6)

   (6)    

Entre ellos, βj,i representa el grado de influencia del modelo en la posición i-ésima al sintetizar la región j-ésima, lo que esencialmente cuantifica la importancia del píxel j relativo a i en la imagen. Multiplique el mapa de características obtenido con h(xi) píxel por píxel para obtener el mapa de características oj con características mejoradas, donde xi es el i-ésimo mapa de características de la imagen extraída. Como se muestra en la fórmula (7)

   (7)    

Además, la salida o se multiplica aún más por el parámetro de escala γ y se vuelve a agregar al mapa de características de entrada x, y la salida final viene dada por la Ecuación (8)

   (8)    

Para tener en cuenta la correlación entre la información del dominio y las características de larga distancia, se introduce un parámetro de transición γ, con un valor inicial de 0, para que el modelo asigne pesos gradualmente a otros detalles de características de larga distancia de la informática del dominio, por lo tanto lograr la mejora de funciones.

4. Proceso experimental y análisis

4.1    Entorno experimental y conjunto de datos

Para verificar la efectividad del método en este documento, se realizan experimentos en conjuntos de datos CelebA, SVHN y CIFAR-10, el entorno operativo es el marco de código abierto PyTorch, el sistema operativo es Windows 10 de 64 bits y el procesador es Intel(R) Core(TM) i7-10700K CPU a 3,80 GHz, el modelo de tarjeta gráfica es NVIDIA GeForce RTX 2080 SUPER y la memoria de video es de 8 GB. El conjunto de datos de CelebA fue recopilado y publicado por Liu et al. [25] de la Universidad China de Hong Kong. El conjunto de datos contiene 202 599 imágenes de rostros de 10 177 miembros públicos. El tamaño de cada imagen es de 178 × 218, y la imagen de rostro contiene múltiples perspectivas y fondos, y el conjunto de datos marca el género, la expresión, el color del cabello y otras características de la cara; el conjunto de datos del número de casa de Street View (SVHN) proviene del número de casa de Street View del mundo real de Google Hay un total de 100,000 32 ×32 imágenes en color, incluidas 10 categorías del 0 al 9, incluidas 73 257 muestras de conjuntos de entrenamiento y 26 032 muestras de conjuntos de entrenamiento; el conjunto de datos CIFAR-10 fue recopilado y organizado por Krizhevsky[26].El conjunto de datos contiene imágenes en color de 10 categorías tales como como autos, ranas, caballos y botes. El conjunto de entrenamiento consta de 5000 imágenes para cada categoría, con un total de 50 000 imágenes. El conjunto de prueba tiene 1000 imágenes para cada categoría, con un total de 10 000 imágenes. Ambas son de 32 píxeles por 32 píxeles

4.2    Indicadores de evaluación

IS es un algoritmo de puntuación inicial para evaluar la semántica de las imágenes generadas propuesto por Salimans et al.[27].Se originó en Inception Nets de Google.Este índice de evaluación de imágenes puede medir la claridad de una sola imagen generada y la diversidad de imágenes generadas. Cuando Inception Score evalúa la nitidez de la imagen generada, ingresa la muestra de imagen generada x en Inception Nets y genera un vector y de dimensión 1000. Cada dimensión en el vector y representa la probabilidad de que la muestra de imagen de entrada x pertenezca a una categoría determinada Si la entrada Si la muestra de imagen x tiene una resolución alta, entonces la muestra de imagen de entrada x tiene una alta probabilidad de pertenecer a una determinada categoría y una baja probabilidad de pertenecer a otras categorías. Cuanto mayor sea el valor IS, mayor será la claridad y la riqueza de las muestras de imagen generadas de la GAN, y mayor será la calidad de las muestras de imagen generadas.

FID [28] es una medida de la distancia entre los vectores de características de las imágenes reales y las imágenes generadas. El vector de características aquí se obtiene mediante Inception v3 Network. Las dos últimas capas de la estructura de red son capas completamente conectadas para obtener vectores de clasificación de 1 × 1 × 1000. FID usa la salida de la penúltima segunda capa completamente conectada 1 × 1 × A 2048 El vector de características de imagen dimensional se utiliza para métricas de distancia. Puede capturar mejor la similitud entre la imagen generada y la imagen real, lo que cumple con el criterio de discriminación humana, y un valor FID más bajo significa que la imagen generada tiene una mejor calidad y diversidad de imagen.

4.3    Diseño experimental

Para verificar la efectividad del método propuesto en este documento, se realizan comparaciones experimentales en los conjuntos de datos CelebA, CIFAR-10 y SVHN. Para el conjunto de datos CelebA, el tamaño de la imagen generada es 64×64; para los conjuntos de datos CIFAR-10 y SVHNN, el tamaño de la imagen generada es 32×32, y se seleccionan aleatoriamente 500 imágenes de cada categoría del original conjunto de datos, y el total es de 5000 imágenes, porque es una generación no supervisada, así que coloque 500 imágenes de cada clase en el modelo para la generación. Los tipos y cantidades de conjuntos de datos para todos los modelos de comparación son los mismos, el tamaño del lote se establece en 64 y los pasos totales de las iteraciones del generador se establecen en 200 000 veces cada uno. Durante el proceso de capacitación, las muestras generadas y las las muestras se guardan cada 100 iteraciones. En este experimento, se utiliza el optimizador Adam[29], donde β1=0.0, β2=0.9, la disminución de la tasa de aprendizaje se establece en 0.95 y la regla de actualización de dos escalas de tiempo (Two Time-scale Update Rule, TTUR) La tasa de aprendizaje del generador se establece en 0,0001, y la tasa de aprendizaje del discriminador se establece en 0,0004, de modo que el generador y el discriminador tienen diferentes tasas de aprendizaje, el generador utiliza un rango de actualización más pequeño para engañar al discriminador, y no elegirá formas rápidas, imprecisas y poco realistas de ganar el juego. La disminución de la tasa de aprendizaje se establece en 0,95. La función de pérdida de entrenamiento adversario utiliza una función de penalización de gradiente.Esta función de pérdida puede estabilizar el entrenamiento de GAN y facilitar la convergencia. Durante el entrenamiento, el discriminador se entrena 5 veces y el generador se entrena una vez, donde el coeficiente de penalización de gradiente λ=10.

Para verificar aún más que los datos de imagen generados en este documento pueden mejorar el efecto de entrenamiento del modelo profundo existente, se utilizan experimentos de clasificación para la verificación. En el experimento de clasificación de conjuntos de datos a pequeña escala, para excluir la influencia del rendimiento del clasificador y solo considerar el efecto de los datos generados, se diseña una red de clasificación basada en el LeNet clásico. Para los conjuntos de datos SVHN y CIFAR-10, se muestrean aleatoriamente 500 imágenes de cada categoría, para un total de 5000 imágenes en 10 categorías. El conjunto de entrenamiento de cada clase antes de la expansión: conjunto de prueba = 350:150, el conjunto de entrenamiento total antes de la expansión es 3500 y el conjunto de prueba total es 1500. El conjunto de entrenamiento de cada clase que se clasificó originalmente se expande 10 veces a 3500, el conjunto de entrenamiento total es 35000 y el conjunto de prueba total sigue siendo 1500. Al comparar la tasa de precisión en el conjunto de prueba antes y después del aumento de datos usando imágenes reales y diferentes métodos GAN, cuanto mayor sea la tasa de precisión, mejor será la calidad de la imagen generada, lo que puede mejorar efectivamente el rendimiento del modelo de clasificación.

4.4     Análisis de los resultados experimentales

El modelo de línea de base seleccionado en este documento es DCGAN. Para verificar la efectividad de la mejora de datos MA-GAN, se compara cualitativa y cuantitativamente con WGAN-GP y SAGAN, que también utiliza el mecanismo de atención. La característica común de estos modelos es que se basan en DCGAN es un método de línea de base con una estructura simple, relativamente pocos parámetros y solo ocupa una pequeña memoria de GPU, lo que puede verificar mejor la efectividad del método propuesto.

 4.4.1 Resultados experimentales de CelebA

Como se muestra en la Figura 6, el efecto de imagen generado cuando cada modelo itera 200 veces, para el conjunto de datos CelebA, cuando el generador itera 200 veces, WGAN-GP, SAGAN y SF-GAN tienen aproximadamente el contorno de la cara, pero en WGAN -GP y SAGAN, hay más placas negras y aparecen irregulares.En comparación con SF-GAN, los artefactos están en un estado regular.

Figura 6 Comparación de muestras generadas por diferentes modelos

En la Figura 7 se puede ver que la imagen generada por WGAN-GP tiene el fenómeno de colapso del patrón facial (como se muestra en el recuadro rojo de la Figura 7(a)), y la imagen facial generada por SAGAN tiene más imágenes estructurales anormales ( Figura 7 (b) que se muestra en el cuadro rojo), la razón es que, aunque SAGAN captura la correlación de píxeles en un solo mapa de características a través del mecanismo de autoatención, no puede capturar la conexión entre cada canal de características, por lo que no logra capturar la imagen Características y estructuras geométricas. En comparación con SAGAN, SF-GAN y WGAN-GP generan imágenes más suaves y naturales, y los órganos faciales están más coordinados.

Figura 7. Efectos de generación de diferentes modelos en el conjunto de datos de CelebA

El símbolo "↑" del índice IS en la Tabla 1 indica que cuanto mayor sea el IS, mejor será el efecto del modelo, y el símbolo "↓" del índice FID indica que cuanto menor sea el FID, mejor será el efecto del modelo. Se puede ver en la Tabla 1 que, en comparación con SAGAN, la puntuación IS de SF-GAN aumentó en un 10,28 % y la FID disminuyó en un 1,18 %.En comparación con WGAN-GP, la puntuación IS aumentó en un 12,75 % y la FID disminuyó. en un 14,93%. Muestra la efectividad del método propuesto y su excelente desempeño en la generación de imágenes.

Tabla 1 Resultados de la comparación de diferentes modelos en el conjunto de datos de CelebA 

 4.4.2 Resultados experimentales de SVHN

La Figura 8 muestra los efectos de generación de diferentes modelos en la clase "8". Tanto WGAN-GP como SAGAN no pueden generar muestras de imágenes normalmente (como lo indican los cuadros rojos en la Figura 8(a) y la Figura 8(b). Se muestra) Los números generados por SF-GAN son más claros, los bordes son más limpios, los colores son más brillantes y los detalles son más naturales.

Figura 8. Efectos de generación de diferentes modelos sobre el número 8

Puede verse en la Tabla 2 que entre las 10 clases de números del 0 al 9, las puntuaciones IS de cada clase de la imagen generada por SF-GAN son las más altas. En la clase "5", SF-GAN aumentó las puntuaciones IS de los modelos WGAN-GP y SAGAN en un 11,81 % y 12,43 % respectivamente; en la clase "7", SF-GAN mejoró las puntuaciones IS de los modelos WGAN-GP en un 20,35 %, un aumento del 13,95% en comparación con SAGAN.

Tabla 2 Resultados de la comparación IS de diferentes modelos en el conjunto de datos SVHN

Se puede ver en la Tabla 3 que entre las 10 categorías de números del 0 al 9, los puntajes FID de cada categoría de la imagen generada por SF-GAN son los más bajos, lo que significa que el rendimiento del modelo es el mejor. Entre ellos, en la clase "8", SF-GAN en comparación con WGAN-GP, las puntuaciones FID del modelo SAGAN disminuyeron en un 27,63%, 27,511% respectivamente; en la clase "9", SF-GAN en comparación con WGAN-GP, las puntuaciones FID del modelo SAGAN Reducido respectivamente en un 35,55%, 23,10%.

Tabla 3. Resultados de la comparación FID de diferentes modelos en el conjunto de datos SVHN

 4.4.3 Resultados experimentales de CIFAR-10

Como se muestra en la Figura 9, se muestra el efecto de generación de diferentes modelos en CIFAR- 10. De la Figura 9(a), se puede ver que el efecto de imagen generado por WGAN-GP es relativamente caótico, y la discriminación entre objetos y fondos es bajo; de la Figura 9(b), se puede ver que SAGAN El efecto visual del color de la imagen generada es mejor que el de WGAN-GP, y tiene un mejor nivel de luz y sombra, pero aún le falta en las características del objeto; la Figura 9(c) es la imagen generada de SF-GAN, en comparación con otros modelos, la imagen generada tiene una mejor expresividad del color, una mejor discriminación de las características de los objetos, una transición más natural entre el sujeto de la imagen y el fondo, y más detalles, lo que demuestra además que SF-GAN tiene una gran capacidad para extraer características profundas y generar La calidad de imagen también es mejor.

Fig. 9 Efecto de generación de diferentes modelos en CIFAR-10

Se puede ver en la Tabla 4 que el IS de SF-GAN es el más alto entre las 10 clases de CIFAR-10. Entre ellos, en la clase "avión", SF-GAN en comparación con WGAN-GP, las puntuaciones IS del modelo SAGAN aumentaron en un 9,42%, 8,89% respectivamente; en la clase "perro", SF-GAN en comparación con WGAN-GP, SAGAN Las puntuaciones del modelo IS aumentaron un 24,51% y un 18,54% respectivamente.

Tabla 4 Resultados de la comparación IS de diferentes modelos en el conjunto de datos CIFAR-10

Puede verse en la Tabla 5 que en las 9 clases de "avión", "pájaro", "gato", "venado", "perro", "rana", "caballo", "barco" y "camión", SF-GAN En comparación con otros modelos de comparación, el FID es el más bajo. En la clase "Coche", el FID del modelo SF-GAN es inferior al de SAGAN y superior al de WGAN-GP. Entre ellos, en la clase "pájaro", SF-GAN en comparación con WGAN-GP, las puntuaciones FID del modelo SAGAN disminuyeron en un 21,92%, 17,63% respectivamente; en la clase "barco", SF-GAN en comparación con WGAN-GP, modelo SAGAN Puntuaciones FID Reducidas respectivamente en un 9,33%, 23,29%.

Tabla 5. Resultados de la comparación FID de diferentes modelos en el conjunto de datos CIFAR-10

 4.4.4 Análisis del rendimiento del reconocimiento de clasificaciones

Se puede ver en la Figura 10 que cuando se realizan 2000 pasos de iteración, además de la mejora de la imagen real, la pérdida del conjunto de entrenamiento después de la mejora de los tres métodos GAN diferentes se aproxima a 0. Después de mejorar la imagen real, la pérdida de entrenamiento no es tan rápida como la pérdida del método de mejora de datos GAN.

Figura 10 Cambios en la pérdida del conjunto de entrenamiento después de la mejora de SVHN

Se puede ver en la Figura 11 (a) que para la precisión de clasificación de cada clase en el conjunto de entrenamiento, la precisión de clasificación de cada clase fluctúa más después de la mejora de WGAN-GP, seguida de la mejora de imagen real; usando SF-GAN La mejora la precisión de la clasificación es comparable para cada clase. En la Figura 11 (b) se puede ver que para la precisión de clasificación de cada clase en el conjunto de prueba, la fluctuación de la precisión de clasificación de cada clase después de la mejora de SF-GAN es la más pequeña y la precisión también es mayor.

Figura 11 Conjunto de entrenamiento mejorado SVHN y precisión de clasificación del conjunto de prueba

Se puede ver en la Figura 12 que la pérdida de la mejora de SF-GAN y la mejora de MA-GAN disminuye más rápido y cuando el tamaño del paso de iteración es 2500 veces, la pérdida de entrenamiento después de la mejora de los dos métodos se aproxima a 0, lo que indica que el entrenamiento El proceso es más estable y converge más rápido.

Figura 12 Cambios en la pérdida de conjuntos de entrenamiento después de la mejora de CIFAR-10

En la Figura 13(a) se puede ver que para la precisión de la clasificación de cada clase en el conjunto de entrenamiento, el uso de la mejora de imagen real tiene fluctuaciones más grandes que otros métodos, la mejora de WGAN-GP tiene fluctuaciones más grandes que otros métodos GAN y SF-GAN La fluctuación después de la mejora es la más pequeña; como se puede ver en la Figura 13 (b), para la precisión de clasificación de cada clase en el conjunto de prueba, la precisión de clasificación de cada clase después de la mejora de SF-GAN es mayor y la fluctuación es menor.

Figura 13 Precisión de clasificación del conjunto de prueba y el conjunto de entrenamiento mejorado CIFAR-10

En la Tabla 6 se puede ver que después de mejorar SF-GAN, la tasa de precisión promedio en el conjunto de prueba es la más alta, un 12,16 % más alta que la tasa de precisión sin mejorar y un 6,41 % más alta que la precisión mejorada del método WGAN-GP tasa.

Tabla 6. Precisión de clasificación (%) del conjunto de pruebas SVHN mejorado por diferentes métodos

Se puede ver en la Tabla 7 que, en comparación con las imágenes reales, SF-GAN, SAGAN y WGAN-GP tienen la tasa de precisión promedio más alta después de la mejora, que es un 64,53 % más alta que sin mejora. La tasa de precisión aumentó un 12,31%. El método propuesto mejora la calidad y la fidelidad de la imagen generada hasta cierto punto y acelera la velocidad de convergencia de la Red. La precisión del clasificador es mejor que otros métodos de comparación, lo que demuestra que los datos de imagen generados en este documento pueden mejorar aún más la rendimiento del modelo profundo.

Tabla 7. Precisión de clasificación (%) del conjunto de pruebas CIFAR-10 mejorado por diferentes métodos

5. Conclusión

Con el objetivo de resolver el problema de que GAN ignora la representación y la información estructural de las características originales cuando el mapa de características es grande, lo que da como resultado una imagen generada de baja calidad, este artículo propone un método de generación de datos de red de confrontación generativa basada en características espaciales (SF-GAN ). El método propuesto tiene un buen efecto de generación en CelebA, SVHN, CIFAR-10 y otros conjuntos de datos.Se verifica que el rendimiento de SF-GAN es mejor que WGAN-GP, SAGAN y otros métodos clásicos en las métricas estándar IS y FID, y a través de la clasificación El experimento verifica además que los datos de imagen generados en este documento pueden mejorar el efecto de entrenamiento del modelo profundo existente. Muestra que el método propuesto en este documento puede obtener la información de características en la imagen de manera más completa que otros métodos, y la distribución de la estructura de la imagen generada también está más cerca de la distribución real. En el trabajo futuro, se harán esfuerzos para generar imágenes de mayor resolución con menos conjuntos de datos.

Descargo de responsabilidad: los artículos y las imágenes reproducidos en la cuenta oficial tienen fines educativos y de investigación científica no comerciales para su referencia y discusión, y no pretenden respaldar sus puntos de vista ni confirmar la autenticidad de su contenido. Los derechos de autor pertenecen al autor original. Si el manuscrito reimpreso involucra derechos de autor y otros problemas, comuníquese con nosotros de inmediato para eliminarlo.

Lanzamiento de "Tecnología y consultoría de inteligencia artificial"

Supongo que te gusta

Origin blog.csdn.net/renhongxia1/article/details/131674792
Recomendado
Clasificación