Un marco simple para el aprendizaje contrastivo de representaciones visuales
1. Resumen
Se propone un marco simple basado en el aprendizaje contrastivo para la representación de imágenes. Conclusiones principales: (1) La composición de la mejora de datos es muy importante para definir tareas de predicción eficaces. (2) Al introducir una transformación no lineal entre la representación y la pérdida de contraste, la calidad de la representación del aprendizaje mejora considerablemente. (3) Aumentar el tamaño del lote y el número de pasos de entrenamiento es más beneficioso para el aprendizaje contrastivo. (Comparado con el aprendizaje supervisado). Efecto: es mucho mejor que los métodos de aprendizaje auto-supervisados y semi-supervisados previos en ImageNet. El clasificador lineal basado en la representación auto-supervisada aprendida por SimCLR logra una precisión top-1 del 76.5%, que es un 7% más alta que la tecnología existente, y es equivalente al desempeño de ResNet-50 supervisado. Cuando solo el 1% de las etiquetas se ajustan con precisión, la precisión de los 5 primeros del 85,8% se logra bajo la condición de 100 veces menos que la etiqueta AlexNet.
2. Arquitectura y algoritmo del modelo
Método de representación de aprendizaje: a través de la pérdida de contraste, maximice la representación consistente de los mismos datos en el espacio oculto a través de diferentes métodos de mejora de datos.
Idea básica: muestrear aleatoriamente un lote; hacer dos mejoras en cada imagen del lote, que se pueden considerar como dos vistas; hacer que diferentes vistas de la misma imagen se acerquen en el espacio latente y que las vistas de diferentes imágenes estén lejos en el espacio latente. Implementación de NT-Xent.
- Módulo de expansión de datos
aleatorios Transforma aleatoriamente cualquier instancia de datos dada en dos vistas relacionadas de la misma instancia, tratándolas como un par de vistas frontales. Aplique tres mejoras simples: recorte aleatorio, luego vuelva a cambiar el tamaño al tamaño original, distorsión de color aleatoria y desenfoque gaussiano aleatorio. Entre ellos, la combinación de recorte aleatorio y distorsión del color es la clave para un buen rendimiento. - El codificador base de red f (·) se
utiliza como extractor de características de la muestra de datos, utilizando ResNet. Hi = f (xi) = R es N et (xi) h_i = f (x_i) = ResNet (x_i)hyo=f ( xyo)=R e s N e t ( xyo) - Encabezado de asignación de red f (·)
- ecuación de pérdida contrastiva
en un conjunto de datos dado xk {x_k}XkPara la combinación positiva xi x_iXyo xj x_j Xj, Dado xi x_iXyo, En el conjunto k ≠ ik \ neq ik=i Identificadoxj x_jXj.
Entre ellos, sim (u, v) = u T v / ∣ ∣ u ∣ ∣ ∣ ∣ v ∣ ∣ sim (u, v) = u ^ Tv / || u || || v ||s yo m ( u ,v )=tuT v/∣∣u∣∣∣∣v∣∣; l [k ≠ i] ∈ 0, 1 l _ {[k \ neq i]} \ in {
{0,1}}l[ k= I ]∈0 ,1当k ≠ ik \ neq ik=i es 1; de lo contrario, es 0. Una vez
completado el entrenamiento, las tareasposterioressolo usan el codificador f (·) y la caracterización h.
3. Conclusión principal
-
La composición del aumento de datos es muy importante para aprender buenas representaciones. Un
solo método de conversión de datos tiene un efecto mediocre en el aprendizaje de representaciones, incluso si el modelo funciona bien en tareas de predicción contrastiva.
La mayoría de los parches de la imagen tienen una distribución de color similar. El histograma de color solo es suficiente para distinguir las imágenes. Las redes neuronales pueden usar este atajo para resolver tareas de predicción. Por lo tanto, para aprender características generalizables, es muy importante agregar distorsión de color al recorte. -
Estructura de codificador y cabezal
El aumento del tamaño del modelo mejora el efecto de predicción tanto del aprendizaje supervisado como de los clasificadores lineales entrenados sobre la base del aprendizaje no supervisado, pero este último mejora de manera más evidente.
El efecto de agregar una capa de mapeo no lineal es mejor que no agregar una capa de mapeo y una capa de mapeo lineal. Sin embargo, el estado de la capa oculta antes de la capa de mapeo es mejor que la última porque retiene más información de conversión.
Otras conclusiones principales del experimento de ablación: es mejor el
uso de la función de pérdida de pérdida de entropía cruzada normalizada con temperatura ajustable. Agregar la norma 12 puede reducir la acc de contraste, pero el aprendizaje de la representación es mejor.
Los tamaños de lote más grandes y el tiempo de formación son mejores.
En cuanto al motivo de unirse a la capa MLP, una de las explicaciones en línea: se puede conocer la información no lineal de los datos, lo que supone una mejora al paso anterior. A través de este paso de aprendizaje, se pueden obtener las características comunes de información de la misma categoría de datos.