Un marco simple para el aprendizaje contrastivo de representaciones visuales

Un marco simple para el aprendizaje contrastivo de representaciones visuales

1. Resumen

Se propone un marco simple basado en el aprendizaje contrastivo para la representación de imágenes. Conclusiones principales: (1) La composición de la mejora de datos es muy importante para definir tareas de predicción eficaces. (2) Al introducir una transformación no lineal entre la representación y la pérdida de contraste, la calidad de la representación del aprendizaje mejora considerablemente. (3) Aumentar el tamaño del lote y el número de pasos de entrenamiento es más beneficioso para el aprendizaje contrastivo. (Comparado con el aprendizaje supervisado). Efecto: es mucho mejor que los métodos de aprendizaje auto-supervisados ​​y semi-supervisados ​​previos en ImageNet. El clasificador lineal basado en la representación auto-supervisada aprendida por SimCLR logra una precisión top-1 del 76.5%, que es un 7% más alta que la tecnología existente, y es equivalente al desempeño de ResNet-50 supervisado. Cuando solo el 1% de las etiquetas se ajustan con precisión, la precisión de los 5 primeros del 85,8% se logra bajo la condición de 100 veces menos que la etiqueta AlexNet.

2. Arquitectura y algoritmo del modelo

Método de representación de aprendizaje: a través de la pérdida de contraste, maximice la representación consistente de los mismos datos en el espacio oculto a través de diferentes métodos de mejora de datos.
Inserte la descripción de la imagen aquí
Idea básica: muestrear aleatoriamente un lote; hacer dos mejoras en cada imagen del lote, que se pueden considerar como dos vistas; hacer que diferentes vistas de la misma imagen se acerquen en el espacio latente y que las vistas de diferentes imágenes estén lejos en el espacio latente. Implementación de NT-Xent.

  • Módulo de expansión de datos
    aleatorios Transforma aleatoriamente cualquier instancia de datos dada en dos vistas relacionadas de la misma instancia, tratándolas como un par de vistas frontales. Aplique tres mejoras simples: recorte aleatorio, luego vuelva a cambiar el tamaño al tamaño original, distorsión de color aleatoria y desenfoque gaussiano aleatorio. Entre ellos, la combinación de recorte aleatorio y distorsión del color es la clave para un buen rendimiento.
  • El codificador base de red f (·) se
    utiliza como extractor de características de la muestra de datos, utilizando ResNet. Hi = f (xi) = R es N et (xi) h_i = f (x_i) = ResNet (x_i)hyo=f ( xyo)=R e s N e t ( xyo)
  • Encabezado de asignación de red f (·)
    Inserte la descripción de la imagen aquí
  • ecuación de pérdida contrastiva
    en un conjunto de datos dado xk {x_k}XkPara la combinación positiva xi x_iXyo xj x_j Xj, Dado xi x_iXyo, En el conjunto k ≠ ik \ neq ik=i Identificadoxj x_jXj.

Inserte la descripción de la imagen aquí
Entre ellos, sim (u, v) = u T v / ∣ ∣ u ∣ ∣ ∣ ∣ v ∣ ∣ sim (u, v) = u ^ Tv / || u || || v ||s yo m ( u ,v )=tuT v/uv; l [k ≠ i] ∈ 0, 1 l _ {[k \ neq i]} \ in { {0,1}}l[ k= I ]0 ,1k ≠ ik \ neq ik=i es 1; de lo contrario, es 0. Una vez
Inserte la descripción de la imagen aquí
completado el entrenamiento, las tareasposterioressolo usan el codificador f (·) y la caracterización h.

3. Conclusión principal

  • La composición del aumento de datos es muy importante para aprender buenas representaciones. Un
    Inserte la descripción de la imagen aquí
    solo método de conversión de datos tiene un efecto mediocre en el aprendizaje de representaciones, incluso si el modelo funciona bien en tareas de predicción contrastiva.
    Inserte la descripción de la imagen aquí
    La mayoría de los parches de la imagen tienen una distribución de color similar. El histograma de color solo es suficiente para distinguir las imágenes. Las redes neuronales pueden usar este atajo para resolver tareas de predicción. Por lo tanto, para aprender características generalizables, es muy importante agregar distorsión de color al recorte.

  • Estructura de codificador y cabezal

Inserte la descripción de la imagen aquí
El aumento del tamaño del modelo mejora el efecto de predicción tanto del aprendizaje supervisado como de los clasificadores lineales entrenados sobre la base del aprendizaje no supervisado, pero este último mejora de manera más evidente.
Inserte la descripción de la imagen aquí
El efecto de agregar una capa de mapeo no lineal es mejor que no agregar una capa de mapeo y una capa de mapeo lineal. Sin embargo, el estado de la capa oculta antes de la capa de mapeo es mejor que la última porque retiene más información de conversión.
Inserte la descripción de la imagen aquí
Otras conclusiones principales del experimento de ablación: es mejor el
uso de la función de pérdida de pérdida de entropía cruzada normalizada con temperatura ajustable. Agregar la norma 12 puede reducir la acc de contraste, pero el aprendizaje de la representación es mejor.
Inserte la descripción de la imagen aquí
Los tamaños de lote más grandes y el tiempo de formación son mejores.
Inserte la descripción de la imagen aquí
En cuanto al motivo de unirse a la capa MLP, una de las explicaciones en línea: se puede conocer la información no lineal de los datos, lo que supone una mejora al paso anterior. A través de este paso de aprendizaje, se pueden obtener las características comunes de información de la misma categoría de datos.

Supongo que te gusta

Origin blog.csdn.net/pitaojun/article/details/108304558
Recomendado
Clasificación