Aprendizaje auto-supervisado de la representación invariable del pretexto

Aprendizaje auto-supervisado de la representación invariable del pretexto

1. Resumen

Se propone un método de aprendizaje auto-supervisado de representación semántica (Pretext Invariant Representation Learning-PIRL) que no cambia según la transformación de la imagen en diferentes tareas de pretexto. La representación de la imagen aprendida por este método tiene las características de invariancia, y la calidad semántica es mayor, y Supera el desempeño de muchas tareas de pre-entrenamiento de aprendizaje supervisado.

2. Método de tesis

La idea de otros trabajos es predecir algunas propiedades de la transformación de la imagen después de que la imagen original se haya transformado, por lo tanto, las características aprendidas son características de bajo nivel que cambian con esta transformación, que no funciona bien para algunas tareas de reconocimiento semántico.
Inserte la descripción de la imagen aquí
El PIRL de este artículo: Primero defina una red de representación N; la imagen A está representada por N como A_f, después de que se procesa la imagen A (el reordenamiento del rompecabezas que se muestra en la figura de arriba), la imagen a está representada por N y representada como a_f; después del entrenamiento Haga que A_f y a_f estén lo más cerca posible, mientras que A_f y x_f (x ≠ a) son bastante diferentes.

Entrene los parámetros de la red minimizando la pérdida de experiencia. Donde DDD representa el conjunto de datos de imágenes, p (T) representa la distribución de la transformación de imágenes,I t I ^ tyot representa la imagen después de cambiar t,θ \ thetaθ significa parámetros de red,VI V_IVyoRepresenta las características de la imagen aprendidas a través de la red.
Inserte la descripción de la imagen aquí

  • La función de pérdida
    define una función de pérdida de contraste L, el objetivo es hacer que la representación de la imagen I sea lo más posible a su conversión I t I ^ tyoEs similar y la representación de otros datos de imagen es lo más diferente posible.
    Inserte la descripción de la imagen aquí
    s (⋅, ⋅) s (·, ·)s ( ) Representa el cálculo de la similitud del coseno, y antes de calcular s, la característica se somete a diferentes cálculos de "cabeza", g (·) yf (·).
    Inserte la descripción de la imagen aquí
    Para aumentar el número de ejemplos negativos sin aumentar el tamaño del lote, se utiliza el banco de memoria La manera. La representación de características de cada imagen I se incluye en M, y laf (VI) f (V_I)calculada por la época anterior se actualiza mediante el método de promedio móvil exponencialf ( Vyo) . En la
    Inserte la descripción de la imagen aquí
    función de pérdida final
    Inserte la descripción de la imagen aquí
    , el segundo término hace quef (VI) f (V_I)f ( Vyo) Tanto como sea posible y la memoria caractericem I m_ImetroyoSimilar a m I 'm_I'metroyo' Tanto como sea posible.
  • Detalles de implementación
    f (VI) f (V_I)f ( Vyo) : La imagen I pasa a través de la red res5 (las primeras 5 capas de ResNet-50), y luego realiza una agrupación promedio y un mapeo lineal para obtener una representación vectorial de 128 dimensiones;
    g (V (I t)) g (V_ (I ^ t ))g ( V(yot )): La imagen I se divide en 3 piezas de rompecabezas, cada pieza de rompecabezas es procesada por la red res5 y luego se realiza la agrupación promedio, y luego se realiza el mapeo lineal respectivamente para obtener 3 vectores con un total de 128 dimensiones, y estos 3 vectores se ordenan al azar Fusionar y luego realizar un mapeo lineal para obtener una representación vectorial de 128 dimensiones;

3. Resultados experimentales

Inserte la descripción de la imagen aquí
La tarea de detección de objetivos supera a otros métodos de aprendizaje auto-supervisados, y los resultados de entrenamiento previo de la tarea de pretexto original de Jigsaw mejoran en cinco puntos. En otras tareas, como la clasificación de imágenes con modelos lineales y diferentes conjuntos de datos, también ha logrado más que otros métodos de preentrenamiento auto-supervisados.
Inserte la descripción de la imagen aquí
Al comparar la distancia l2 de la caracterización de la imagen original y la caracterización de la imagen transformada, se demuestra que la caracterización aprendida por PIRL es invariante.

Supongo que te gusta

Origin blog.csdn.net/pitaojun/article/details/108563762
Recomendado
Clasificación