¡Rompe el límite de la eficiencia del aprendizaje autosupervisado! Ma Yi y LeCun lanzaron conjuntamente EMP-SSL: SOTA se puede lograr en 30 épocas sin trucos sofisticados

Fuente | ID de Xinzhiyuan | Era de la IA

En los últimos años, el aprendizaje no supervisado y autosupervisado (SSL) ha tenido un gran progreso. Las representaciones aprendidas a través de SSL incluso han alcanzado al aprendizaje supervisado en el rendimiento de la clasificación, e incluso superado el aprendizaje supervisado en algunos casos. Esta tendencia también abre la posibilidad de aprendizaje no supervisado basado en datos a gran escala para tareas de visión.

Aunque el rendimiento experimental del aprendizaje autosupervisado es sorprendente, la mayoría de los métodos de aprendizaje autosupervisado son bastante "ineficientes", y por lo general requieren cientos de épocas de entrenamiento para converger por completo.

imagen

Recientemente, el equipo del profesor Ma Yi y el ganador del premio Turing, Yann LeCun, lanzaron un nuevo método de aprendizaje autosupervisado, Extreme-Multi-Patch Self-Supervised-Learning (EMP-SSL), que demostró que la clave para un aprendizaje autosupervisado eficiente es aumentar cada El número de bloques de imagen en una instancia de imagen.

imagen

Enlace en papel: https://arxiv.org/pdf/2304.03977.pdf

Enlace de código: https://github.com/tsb0601/EMP-SSL

El método no se basa en técnicas heurísticas comunes en el aprendizaje autosupervisado, como el peso compartido entre ramas, la normalización de características, la cuantificación de salida y los gradientes de parada, etc., y reduce el tiempo de entrenamiento en dos órdenes de magnitud.

Los resultados experimentales muestran que con solo una época de entrenamiento, el método propuesto puede converger con una precisión del 85,1 % en el conjunto de datos CIFAR-10, 58,5 % en el conjunto de datos CIFAR-100 y 58,5 % en Tiny ImageNet. % en ImageNet-100

Si el número de épocas de entrenamiento se aumenta a 10, el método puede alcanzar el 91,5 % en CIFAR-10, el 70,1 % en CIFAR-100, el 51,5 % en Tiny ImageNet y el 78,9 % en ImageNet-100

Además, los resultados también muestran que EMP-SSL exhibe un rendimiento de transferencia fuera del dominio bastante bueno en datos de entrenamiento en comparación con otros métodos de referencia.

El profesor Ma Yi obtuvo una doble licenciatura en automatización y matemáticas aplicadas de la Universidad de Tsinghua en 1995, una maestría en EECS de la Universidad de California, Berkeley en 1997 y una maestría en matemáticas y un doctorado en EECS en 2000.

imagen

En 2018, el profesor Ma Yi se unió al Departamento de Ingeniería Eléctrica y Ciencias de la Computación de la Universidad de California, Berkeley. En enero de este año, se unió a la Universidad de Hong Kong como decano del Instituto de Ciencia de Datos, y recientemente asumió el cargo de el director del Departamento de Informática de la Universidad de Hong Kong.

Las principales direcciones de investigación son la visión por computadora en 3D, los modelos de baja dimensión para datos de alta dimensión, la optimización de la escalabilidad y el aprendizaje automático. Los temas de investigación recientes incluyen la reconstrucción e interacción geométricas en 3D a gran escala, y la relación entre los modelos de baja dimensión y las redes profundas. .

EMP-SSL

proceso general

De manera similar a otros métodos SSL, EMP-SSL obtiene incrustaciones conjuntas a partir de vistas aumentadas de imágenes, donde las vistas aumentadas son parches de imágenes de tamaño fijo.

Este tipo de enfoque tiene dos objetivos:

1. La representación de dos imágenes mejoradas diferentes de la misma imagen debe ser más cercana;

2. El espacio de representación no debe ser un espacio trivial colapsado, es decir, se debe preservar la estructura geométrica o aleatoria importante de los datos.

Los estudios previos exploraron principalmente varias estrategias y diferentes heurísticas para lograr estas dos propiedades y lograron un rendimiento cada vez mejor, y su éxito se debe principalmente al aprendizaje de la co-ocurrencia de parches de imagen.

Para hacer que el aprendizaje de la co-ocurrencia de parches de imágenes sea más eficiente, los investigadores aumentaron la cantidad de parches de imágenes en el aprendizaje autosupervisado hasta el límite (extremo) en EMP-SSL.

En primer lugar, para la imagen de entrada, se divide en n bloques de imagen de tamaño fijo mediante un recorte aleatorio (superposición), y luego los bloques de imagen se mejoran utilizando técnicas estándar de mejora de datos.

Para cada bloque de imagen mejorado, se utilizan dos redes para obtener incrustación y proyección respectivamente, donde la red de incrustación es una red relativamente profunda (como ResNet-18) y la red de proyección es más pequeña, con solo dos capas completas. La capa de conexión, que juntos forman el codificador.

imagen

Durante el entrenamiento, el modelo emplea una técnica de regularización de Tasa de codificación total (TCR) para evitar el colapso de la representación.

imagen

Los investigadores también esperan que las representaciones de diferentes parches de imagen de la misma imagen sean invariantes, es decir, deberían estar lo más cerca posible en el espacio de representación, así que trate de minimizar la diferencia entre la representación de la imagen mejorada y la representación promedio de todos los parches de imagen mejorados en la misma distancia, por lo que el objetivo de entrenamiento es:

imagen

Entre ellos, Z representa la representación promedio de diferentes bloques de imagen mejorados, y D es la función de distancia (similitud de coseno), es decir, cuanto mayor es el valor de D, más similares son.

Esta función objetivo puede verse como una variante de la reducción de tasa máxima (reducción de tasa máxima) y también puede verse como una versión generalizada del método SSL basado en covarianza. método de aprendizaje, y n también se puede establecer más grande para mejorar la velocidad de aprendizaje de la contribución del bloque de imagen

imagen

bolsa de caracteristicas

Los investigadores definen la representación de la imagen de entrada como el promedio incrustado de todos los bloques de imagen, pero algunos trabajos creen que si la representación incrustada contiene más series aritméticas y localidades, el rendimiento será mejor y la proyección debería ser más estable, pero esta conclusión todavía carece de pruebas rigurosas.

arquitectura

Los investigadores intentaron adoptar una forma simple de arquitectura de red que se usa a menudo en el aprendizaje autosupervisado, es decir, EMP-SSL no requiere redes de predicción, codificadores de impulso, operadores indiferentes o gradientes de parada.

Aunque se ha demostrado que estos métodos son efectivos en algunos métodos de aprendizaje autosupervisado, su eficacia puede dejarse para una mayor exploración.Este documento se centra en la eficacia de los métodos de aprendizaje autosupervisado propuestos.

Resultados experimentales

Aprendizaje autosupervisado para una época

En comparación con otros métodos de aprendizaje autosupervisados ​​de última generación, se puede ver que incluso si EMP-SSL solo ha visto el conjunto de datos una vez, puede converger a un rendimiento SOTA casi totalmente convergente.

imagen

Los resultados muestran que el método tiene un gran potencial no solo para mejorar la convergencia de los métodos SSL actuales, sino también en otras áreas de la visión artificial, como el aprendizaje en línea, el aprendizaje incremental y el aprendizaje de robots.

Convergencia rápida en conjuntos de datos estándar

En conjuntos de datos estándar, incluidos CIFAR-10, CIFAR-100, Tiny ImageNet e ImageNet-100, los investigadores verificaron la eficiencia de la función objetivo propuesta en términos de velocidad de convergencia.

imagen

Se puede ver que después de solo una época de entrenamiento, EMP-SSL logra una tasa de precisión del 80,6 % en la configuración de 20 bloques de imágenes y una tasa de precisión del 82,6 % en la configuración de 200 bloques de imágenes.

imagen

Después de 10 épocas, EMP-SSL ha convergido en más del 90 %, que también es el método de aprendizaje autosupervisado más avanzado en el conjunto de datos CIFAR-10; y en 30 épocas, la precisión de EMP-SSL ha superado todos los métodos actuales, alcanzando más del 93%.

En cuanto a la cuestión de la eficiencia del tiempo, en el aprendizaje autosupervisado de integración conjunta, el aumento en el número de parches de imagen puede prolongar el tiempo de entrenamiento.

Los investigadores compararon el tiempo necesario para que cada método lograra el rendimiento especificado en CIFAR, utilizando dos GPU A100 para experimentos.

imagen

A partir de los resultados experimentales, se puede ver que en el conjunto de datos CIFAR-10, EMP-SSL no solo necesita muchas menos épocas de entrenamiento para converger, sino que también tiene un tiempo de ejecución más corto.

En el conjunto de datos CIFAR-100 más complejo, esta ventaja es aún más obvia. El método anterior requiere más épocas de entrenamiento, por lo que el tiempo de convergencia también es más largo, mientras que EMP-SSL solo necesita unas pocas épocas de entrenamiento para lograr un buen efecto.

visualización de representación

Los investigadores utilizaron los resultados de los mapas t-SNE para demostrar que, a pesar de que solo se entrenó durante unas pocas épocas, EMP-SSL ha aprendido representaciones significativas.

imagen

En el mapa de representación aprendido en el conjunto de entrenamiento CIFAR-10, EMP-SSL se entrena para 10 épocas usando 200 parches de imagen, y otros métodos SOTA se entrenan para 1000 épocas, donde cada color representa una categoría diferente.

Se puede ver que las representaciones aprendidas por EMP-SSL para diferentes categorías están mejor separadas y más estructuradas; en comparación con otros métodos SOTA, las características aprendidas por EMP-SSL muestran una estructura de baja dimensión más fina.

¡Lo más sorprendente es que todas estas estructuras se aprenden en solo 10 épocas de entrenamiento!

Experimento de ablación de número de bloque de imagen

Los investigadores también realizaron experimentos de ablación sobre el número de parches de imagen n en la función objetivo, demostrando la importancia de este parámetro en el proceso de convergencia.

imagen

Referencias:

https://arxiv.org/pdf/2304.03977.pdf

Supongo que te gusta

Origin blog.csdn.net/lqfarmer/article/details/132110745
Recomendado
Clasificación