Una revisión del aprendizaje comparativo

Una revisión del aprendizaje comparativo

característica de incrustación oculta latente características de todos los medios

El primer escenario

InstDisc (2018, banco de memoria)

Aprendizaje de funciones no supervisado mediante discriminación de instancias no paramétricas

imagen

Contribuciones:

  1. Proponer tarea de agente: individual

  2. Discriminación (cada imagen se considera una categoría, positiva: la imagen en sí, negativa: otras imágenes)

  3. El banco de memoria almacena muestras negativas. La última característica de mb de cada imagen es de 128 dimensiones (la dimensión es demasiado grande para almacenarla)

    Para el conjunto de datos de ImageNet, hay un total de 1,28 millones de imágenes, el banco de memoria es una matriz de datos de 1280000 * 128 y se seleccionan aleatoriamente 4096 muestras negativas.

    Supongamos que el tamaño del lote es 256, es decir, hay 256 muestras positivas y se toman 4096 muestras negativas. NCEloss se calcula como la pérdida. Después del cálculo, las características de este lote se pueden reemplazar con las características del banco de memoria.

  4. Propuso un método de actualización de parámetros del modelo basado en Momentum (regularización próxima: agrega una restricción al entrenamiento del modelo, y la idea posterior de MoCo es consistente con ella)

Configuraciones experimentales:

imagen

Las configuraciones experimentales posteriores de MoCo son las mismas que las de InstDisc

InvaSpread (CVPR, 2019, de extremo a extremo, el tamaño del lote es demasiado pequeño)

Aprendizaje integrado no supervisado a través de la función de instancia invariante y en expansión

https://i0.hdslb.com/bfs/note/fd618b06c332626cf4dc4cf9f4cd0c7d52542511.png@690w_!web-note.webp

Después de que imágenes similares pasan por el codificador, las características son similares (invariantes) y las características de imágenes diferentes no son similares (diseminación).

Tarea del agente: discriminación individual

Contribuciones:

imagen

  1. tamaño de lote256, como se muestra en la figura anterior, después de la mejora de datos, x1 , x2 , X3^, muestras positivas: 256, muestras negativas: (256-1)*2, puede usar un codificador para el aprendizaje de un extremo a otro
  2. No se requieren datos externos para proporcionar muestras positivas.

Las razones por las que los resultados no son lo suficientemente buenos son: el diccionario no es lo suficientemente grande, lo que da como resultado que no haya suficientes muestras negativas, no haya suficiente aumento de datos y no haya un proyector mlp.

CPCv1 (2019, pérdida de InfoNCE)

Aprendizaje de representación con codificación predictiva contrastiva

imagen

Puede procesar no sólo audio sino también texto e imágenes, y puede utilizarse en el aprendizaje por refuerzo.

gar: auto regresivo, RNN, LSTM

Ct (representación de contexto) se puede utilizar para predecir la producción futura (Zt+1, etc.)

Tareas del agente:

Muestra positiva: la salida de la característica genc en el momento futuro es similar a la predicción (consulta) de ct

Muestra negativa: puede elegir la salida de características de genc en cualquier momento, que no es similar a la predicción de ct

CMC (multi-vista multimodal)

Codificación multivista contrastiva _ _ _

Una vista múltiple de un objeto puede considerarse una muestra positiva.

La desventaja es que se requieren demasiados codificadores.

Realizar un trabajo desde múltiples perspectivas desde muy temprano no solo demuestra la flexibilidad del aprendizaje contrastivo, sino que también demuestra la viabilidad de este tipo de perspectivas múltiples y modalidades múltiples.

Abstracto:

Las personas observamos el mundo a través de muchos sensores. Por ejemplo, los ojos o los oídos actúan como sensores diferentes para proporcionar diferentes señales al cerebro. Cada perspectiva es ruidosa y puede estar incompleta, pero la información más importante en realidad se comparte entre todas estas perspectivas, como las leyes físicas básicas, las formas geométricas o la información del habla. Se comparte, por ejemplo, se puede ver, oír o escuchar a un perro. sintió.

Aprenda una característica muy poderosa que es invariante a la perspectiva (no importa qué perspectiva mire, ya sea que vea o escuche un perro ladrar, puede saber que es un perro).

Objetivo de aprendizaje: aumentar la información mutua entre todas las perspectivas.

imagen

Seleccione el conjunto de datos: NYU RGBD, cuatro vistas: imagen original, información de profundidad, superficie normal, imagen segmentada

Todas las entradas corresponden a una imagen y cada una de ellas es una muestra positiva.

Puede requerir múltiples codificadores para manejar múltiples tipos de entrada (CLIP)

Destilación: profesor y alumno forman pares de muestras positivas

Resumir:

Tareas del agente: Discriminación de instancias, predictivo, multivista, multimodal
Funciones objetivas: NCE, InfoNCE y otras variantes
Arquitectura del modelo:

  1. un codificador + banco de memoria (Inst Disc);
  2. un codificador (spread invariante);
  3. Un codificador + un auto regresivo (CPC);
  4. Múltiples codificadores (CMC)

Tipo de tarea: imagen, audio, texto, aprendizaje por refuerzo, etc.

Segunda etapa:

MoCov1(CVPR2020)

Contraste de impulso para el aprendizaje de representación visual no supervisado

imagen

Mi blog anterior: https://blog.csdn.net/qq_52038588/article/details/130857141?spm=1001.2014.3001.5502

Método de escritura: resuma el problema, amplíe el alcance, escriba de arriba (grande) hacia abajo y escriba de manera universal

SimCLRv1(ICML,2020.2.13)

Un marco simple para el aprendizaje contrastivo de representaciones visuales

imagen

Proceso de entrenamiento:

x->xi, xj (mejora de datos, cada uno es una muestra positiva)->codificador f ( ⋅ ) f(\cdot)f ( ) ->proyectorg ( ⋅ ) g(\cdot)g ( ) ->Característica z

Muestras positivas: 2, muestras negativas: 2*(tamaño de lote-1)

codificador f ( ⋅ ) f(\cdot)f ( ) peso compartido

escala de temperatura normalizada, similar a la pérdida de InfoNCE

Contribuciones: (trucos)

  1. Mayor mejora de datos

    imagen

    El experimento de ablación para mejorar los datos es el siguiente: el recorte y el color son útiles

    Insertar descripción de la imagen aquí

  2. Reducción de dimensionalidad del cabezal MLP (2048->128), es decir, se agrega el cabezal de proyección g ( ⋅ ) g(\cdot)g ( ) , solo se usa para entrenamiento, no para tareas posteriores

    gramo ( ⋅ ) gramo(\cdot)g ( ) : una capa completamente conectada y una función de activación ReLu

    imagenLineal: cabezal de proyección sin ReLU

    No lineal: todo el cabezal de proyección

    Ninguno: sin cabezal de proyección

  3. Entrenamiento por lotes grandes durante mucho tiempo.

MoCov2 (2020.3.9, informe técnico)

Líneas de base mejoradas con el aprendizaje contrastivo Momentum

imagen

Mejorar:

  1. agregar mlp

  2. Añadir agosto

  3. Agregue el programa de tasa de aprendizaje del coseno (según la tabla anterior, aumente en 0,2, no mucho)

    programa de tasa de aprendizaje del coseno:Insertar descripción de la imagen aquí

    La tasa de aprendizaje inicial es lr = 10 ^ -3

    Si hay un total de 100 épocas, solo las últimas 60 se utilizan para aplicar la disminución de la tasa de aprendizaje del coseno, entonces las primeras 40 épocas no se calculan mediante el coseno y la tasa de aprendizaje de las primeras 40 épocas es: lr1 = época/40 * lr, entonces las últimas 60 épocas son aplicables 0.5 * (math.cos(40/100) * math.pi) + 1).

    La tasa de aprendizaje calculada al final es 2,5x10^-4.

  4. La época es más larga (200->800, MAE usó la época 1600)

    8 V100

SimCLRv2 (IPS nervioso, 2020)

Los grandes modelos autosupervisados ​​son fuertes estudiantes semisupervisados

Inspirado en el trabajo del estudiante ruidoso de Google (primero entrene el modelo del maestro, genere pseudoetiquetas a partir del conjunto de datos y entrene el modelo del estudiante con más datos sin etiquetar juntos, SOTA en ese momento)

imagen

Mejoras importantes:

  1. Un modelo más grande (sin supervisión es mejor), que cambia la red troncal de ResNet-50 a ResNet - 152 y está equipado con canales 3 veces más anchos y una red de núcleos selectivos (SK)
  2. Cambie el cabezal de proyección de una capa de MLP a dos capas de MLP. Habrá poca mejora en la capa 3.
  3. Motivado por mocov2, usando el codificador de impulso, su lote 4096 ya es grande y el diccionario es lo suficientemente grande.

SWAV

Aprendizaje no supervisado de características visuales mediante asignaciones de grupos contrastantes

intercambiar vistas de asignación

Se recomienda leer primero el clúster profundo y realizar un trabajo previo.

imagen

Las ventajas de la izquierda son primitivas y requieren muchos recursos.

SwAV no utiliza muestras negativas, se basa en información previa y utiliza el centro de grupo c (prototipos) para comparar

D: dimensión de la característica, K: cuántos centros de conglomerados (3000)

z1, z2 primero usan el método de agrupamiento para permitir que z y c generen objetivos q1 y q2 (GT)

Tareas del agente:

z1 y z2 deben ser similares y pueden predecirse entre sí. El producto escalar de z1 yc predice Q2 o el producto escalar de z2 yc predice Q1.

Beneficios de utilizar la agrupación en clústeres:

  • Si compara con cada muestra negativa similar a una instancia, necesita miles de muestras negativas, e incluso esto es solo aproximado ; por el contrario, si compara con los centros de conglomerados, use unos pocos cientos o como máximo 3000 en los centros de conglomerados de ImageNet son suficientes.
  • Los centros de conglomerados tienen un significado semántico claro: en comparación con el muestreo aleatorio en muestras negativas tipo instancia, que encontrarán problemas como que algunas muestras positivas también serán muestreadas y las categorías de muestra están desequilibradas, no es tan efectivo como el uso de centros de conglomerados.

Insertar descripción de la imagen aquí

Truco importante: cultivos múltiples

La imagen original de 256*256 se toma de dos imágenes de 224*224 para conocer las características globales.

Mejorado 2*160*160+4*96*96, 6 ángulos de visión

CPCV2(ICML 2020)

Reconocimiento de imágenes eficiente en datos con codificación predictiva contrastiva

  1. Usando un modelo más grande , CPC v1 solo usa las primeras tres pilas residuales en ResNet-101, y CPC v2 profundiza el modelo a ResNet-161 (la precisión top-1 de ImageNet aumentó en un 5%), al tiempo que mejora la resolución del parche de imagen de entrada ( de 60x60 a 80x80, la precisión top-1 de ImageNet aumentó en un 2%).
  2. Dado que la predicción de CPC v1 solo está relacionada con varios parches y BN introducirá información de otros parches , similar a la generación de imágenes, el algoritmo BN dañará el rendimiento de CPC v1. Reemplazar BN con LN aumentará la precisión top-1 de ImageNet en un 2%.
  3. Dado que los modelos grandes tienen más probabilidades de sobreajustarse, el autor aumentó la dificultad de la tarea autosupervisada. Para predecir un parche, CPC v2 usa vectores de características en las cuatro direcciones: arriba, abajo, izquierda y derecha, mientras que CPC v1 solo usa el vector de características superior. Dado que CPC v2 está expuesto a más información semántica, será más difícil extraer información semántica relacionada con el parche siguiente. La precisión top-1 de ImageNet aumentó un 2,5%.
  4. Usando una mejor mejora de datos , primero extraiga aleatoriamente dos de los tres canales rgb , y la precisión superior de ImageNet aumenta en un 3%. Luego, se aplican algunas mejoras de geometría, color, deformación elástica y otras mejoras de datos , y la parte superior de ImageNet 1 la precisión aumenta en un 4,5%, se puede ver que la mejora de los datos tiene un gran impacto en la autosupervisión.

Insertar descripción de la imagen aquí

InfoMin (NeurIPS,2020)

Qué constituye una buena visión para el aprendizaje contrastivo

Principalmente trabajo de extensión analítica, Minimizar la Información Mutua. El punto principal es que la información mutua apropiada es importante.

Se propone un nuevo principio de InfoMin, cuyo propósito es hacer que la representación de características aprenda la información compartida entre diferentes vistas e intente eliminar información redundante irrelevante para las tareas posteriores para garantizar que la representación de características aprendidas tenga una buena capacidad de generalización.

La tercera etapa: sin muestras negativas

BYOL (2020): puedes aprender sin muestras negativas

Arranca tu propio contenido latente: un nuevo enfoque para el aprendizaje autosupervisado

imagen

La arquitectura del codificador x->v, v^-> es la misma, pero los parámetros son diferentes. ftheta se actualiza con la actualización del gradiente. El siguiente utiliza el codificador de impulso->proyector-> predicción de predicción qtheta y el objetivo lo más similar posible.

Las funciones desde diferentes perspectivas predicen funciones desde otra perspectiva, dejando solo el codificador

Función objetivo: PÉRDIDA MSE

imagen

En respuesta al blog (BN proporciona muestras negativas implícitas de BYOL):

Insertar descripción de la imagen aquí

  1. Solo el Proyector no puede entrenarlo incluso si tiene BN.
  2. Sin ninguna normalización, SimCLR no se puede entrenar ni siquiera con muestras negativas.

El autor de BYOL cree que BN es estable para el entrenamiento y propone que la inicialización es mejor y el entrenamiento se puede realizar sin BN. Usando GN (norma de grupo) y WS (estandarización de peso), esta versión de BYOL también puede aprender bien.

SimSiam (CVPR2021, trabajo final, sin lotes grandes, sin codificador de impulso, sin muestras negativas)

Explorando el aprendizaje de la representación siamesa simple

imagen

La arquitectura del codificador comparte parámetros de la misma manera.

imagen

Hay dos predictores en el pseudocódigo, que predicen z1 y z2 respectivamente, y son inconsistentes con la imagen.

Lo que se calcula en D es MSEloss

Detener el gradiente es muy importante y puede considerarse como un algoritmo EM que actualiza gradualmente los parámetros para evitar el colapso.

Todas las redes gemelas:

imagen

imagen

Puede ver que sin cultivos múltiples, SWAV no es tan bueno como MoCov2

Gemelos Barlow (ICML 2021)

Barlow Twins: aprendizaje autosupervisado mediante reducción de redundancia

No hay comparación ni predicción, esencialmente se utiliza una función objetivo diferente.

Específicamente se trata de generar una Matriz de Correlación Cruzada (matriz de correlación), esperando que la matriz sea lo más similar posible a la Matriz de Identidad.

Etapa 4: Basado en Transformer

MoCov3(CVPR,2021)

Un estudio empírico sobre el entrenamiento de transformadores de visión autosupervisados

El entrenamiento VIT se vuelve inestable a medida que aumenta el tamaño del lote, de la siguiente manera:

imagen

truco:

Inicialice aleatoriamente la capa de proyección del parche y congélela, es decir, inicialice aleatoriamente un MLP y congélelo. También es útil para BYOL.

imagen

dinosaurio

Propiedades emergentes en transformadores de visión autosupervisados

La salida de la red de profesores está normalizada (centrada, menos la media)

imagen

El pseudocódigo es similar al MoCoV3: la función objetivo tiene una operación central.

imagen

El siguiente es MAE.

Resumir

Insertar descripción de la imagen aquí

referencia:

1. Blog.https://www.bilibili.com/read/cv24218439?spm_id_from=333.999.0.0&jump_opus=1

2. Vídeo.https://www.bilibili.com/video/BV19S4y1M7hm/?spm_id_from=333.999.0.0&vd_source=4e2df178682eb78a7ad1cc398e6e154d

3. Blog.https://blog.csdn.net/dhaiuda/article/details/117870030

Supongo que te gusta

Origin blog.csdn.net/qq_52038588/article/details/131733727
Recomendado
Clasificación