ConvMAE: la convolución enmascarada se encuentra con los codificadores automáticos enmascarados

Aprendizaje autosupervisado, también conocido como aprendizaje autosupervisado, el aprendizaje automático se divide en aprendizaje supervisado, aprendizaje no supervisado y aprendizaje semisupervisado. El aprendizaje autosupervisado es un tipo de aprendizaje no supervisado, principalmente con la esperanza de aprender una expresión característica general para tareas posteriores (tareas posteriores). La forma principal es a través de la autosupervisión. Como trabajo representativo, el MoCo de Kaiming provocó una ola de discusiones acaloradas, y Yann Lecun también dijo en AAAI que el aprendizaje autosupervisado es la tendencia general del futuro.

ConvMAE: ¿Qué hizo Masked Convolution Meets Masked Autoencoders? Se propone principalmente que el modelo de transformador de convolución híbrido multiescala puede ayudar al paradigma de entrenamiento de codificación automática enmascarada (MAE) y ayudarlo a aprender mejores representaciones. ¿Cuál es la mejor representación característica de la pregunta? Si te dan imágenes de ruido, ¿aún puedes aprender? Es un punto molesto, jajaja.
1. En la etapa previa al entrenamiento del aprendizaje autosupervisado
, usamos conjuntos de datos sin etiquetar (datos sin etiquetar), porque los conjuntos de datos etiquetados son muy costosos y cuánto trabajo manual se requiere para etiquetar, el costo es bastante alto, demasiado caro . En cambio, los conjuntos de datos sin etiquetar simplemente se arrastran por la web, y es barato. Cuando entrenamos los parámetros del modelo, no buscamos usar datos etiquetados para entrenar este parámetro en un solo paso desde un papel en blanco inicializado, porque el conjunto de datos es demasiado costoso. Entonces, el aprendizaje autosupervisado quiere entrenar los parámetros desde una hoja en blanco hasta la formación preliminar, y luego desde la formación preliminar hasta la formación completa. Tenga en cuenta que se trata de 2 etapas. Esto que ha sido entrenado para tomar forma, lo llamamos Representación Visual. Al entrenar previamente el modelo, es el proceso de los parámetros del modelo desde una hoja de papel en blanco hasta la forma inicial, o usar un conjunto de datos sin etiquetar. Espere a que entrene los parámetros del modelo hasta el final, y luego use el conjunto de datos etiquetados para entrenar los parámetros para que se formen completamente de acuerdo con sus tareas posteriores (Tareas posteriores), luego la cantidad de conjunto de datos utilizados en este momento no es necesario demasiado grande Más, porque los parámetros han sido entrenados casi después de la primera etapa.
La primera etapa no implica ninguna tarea posterior. Es un entrenamiento previo con un montón de datos sin etiquetar sin tareas específicas. Esto se denomina de forma agnóstica a la tarea en el idioma oficial. La segunda etapa involucra tareas posteriores, que consiste en ajustar tareas posteriores con un montón de datos etiquetados.Esto se llama de una manera específica de la tarea en el lenguaje oficial.
Las palabras anteriores son la idea central del aprendizaje autosupervisado, como se muestra en la Figura 1 a continuación.
inserte la descripción de la imagen aquí

Los métodos de aprendizaje autosupervisado se pueden dividir en 3 categorías: centrado en datos, predicción (también llamado generativo) y contrastivo.

inserte la descripción de la imagen aquí

Uno de los principales es el método basado en Generativo y el método basado en Contrativo. Como se muestra en la Figura 3 a continuación, aquí hay una breve introducción. Los métodos generativos se centran principalmente en la reconstrucción de errores. Por ejemplo, para las tareas de NLP, se cubre un token en medio de una oración, y el modelo se usa para predecir, y se usa el error entre el resultado de predicción obtenido y el token real. como una pérdida. El método basado en Contrastive no requiere que el modelo pueda reconstruir la entrada original, pero espera que el modelo pueda distinguir diferentes entradas en el espacio de características.
inserte la descripción de la imagen aquí
1.2 Motivación de ConvMAE
ConvMAE Este método se basa en el argumento de que ya existen muchos trabajos (como MoCo[1], MAE[2], BEiT[3], DINO[4]) que han verificado el paradigma de entrenamiento de MAE Self -Aprendizaje supervisado Puede ayudar a liberar el potencial del modelo Vision Transformer y lograr un muy buen desempeño en la siguiente tarea.

Como trabajo representativo de este paradigma, MAE desarrolla una arquitectura asimétrica de codificador-decodificador, en la que el codificador solo opera en el subconjunto de parches visibles (es decir, tokens que no están enmascarados), y otro decodificador asimétrico puede derivarse de representaciones latentes y tokens enmascarados reconstruyen la imagen original. La arquitectura del Decodificador puede ser un modelo muy ligero y la arquitectura específica tiene un gran impacto en el rendimiento del modelo. Los investigadores descubrieron además que enmascarar una gran parte de la imagen de entrada (por ejemplo, el 75 %) produce tareas autosupervisadas importantes y significativas. Al mismo tiempo, el paradigma de entrenamiento de MAE no solo puede aprender una representación con un fuerte desempeño discriminativo (Discriminativo) sin la necesidad de un conjunto de datos a gran escala (JFT-300M, ImageNet-22K), sino que también puede ampliarse fácilmente ( Escalable) a En un modelo más grande, ya través de experimentos, se encuentra que a medida que aumenta el modelo, el efecto es cada vez mejor.

Con el fin de acelerar el entrenamiento ViT y obtener un mejor rendimiento, una gran cantidad de trabajo ha verificado el sesgo inductivo local (sesgo inductivo local) (como SMCA-DETR [5], SAM-DETR [6], DAB-DETR [7] , Uniformer [8], CoAtNet[9], ConViT[10], Early Convolution[11]) y puede ayudar a mejorar aún más el rendimiento del modelo ViT. Al mismo tiempo, esta mejora del rendimiento también se puede lograr mediante una representación piramidal multiescala (como Swin Transformer[12], PVT[13]). La eficacia de la combinación de ambos se ha comprobado en un gran número de tareas de aprendizaje supervisado de reconocimiento, detección y segmentación.

Entonces, una pregunta natural es: ¿Puede esta arquitectura piramidal multiescala + modelo de sesgo inductivo local ser capaz de aprovechar y mejorar aún más el rendimiento de MAE después del método de entrenamiento MAE?
Este artículo explora esta cuestión. ConvMAE en resumen es: arquitectura piramidal multiescala + modelo de sesgo inductivo local, utilizando el método de entrenamiento de aprendizaje autosupervisado de MAE.

En comparación con MAE-Base, ConvMAE-Base mejora la precisión de ajuste fino de ImageNet-1k al 85,0 % (+1,4 %), la casilla AP de la tarea de detección de COCO Mask-RCNN al 53,2 % (+2,9 %) y la El mIoU de la tarea de segmentación ADE20k de UpperNet mejora hasta el 51,7% (+3,6%).

1.3 Arquitectura del codificador ConvMAE
El enfoque MAE se muestra en la Figura 3 a continuación. MAE es un marco de pre-entrenamiento con ViT como modelo de arquitectura de forma autosupervisada. El método de MAE es simple: enmascarar parches aleatorios de la imagen de entrada y reconstruirlos. Se basa en dos ideas centrales: los investigadores desarrollaron una arquitectura asimétrica de codificador-decodificador, en la que un codificador solo opera en un subconjunto de parches visibles (es decir, tokens que no están enmascarados) y otro decodificador simple puede reconstruir la imagen original a partir de datos latentes que se pueden aprender. representaciones y tokens enmascarados. La arquitectura del Decodificador puede ser un modelo muy ligero y la arquitectura específica tiene un gran impacto en el rendimiento del modelo. Los investigadores descubrieron además que enmascarar una gran parte de la imagen de entrada (por ejemplo, el 75 %) produce tareas autosupervisadas importantes y significativas. La combinación de estos dos diseños permite un entrenamiento eficiente de modelos grandes: acelera el entrenamiento en un factor de 3 o más y mejora la precisión.
inserte la descripción de la imagen aquí
En comparación con el marco MAE, ConvMAE ha realizado algunas mejoras pequeñas pero muy efectivas.Como se mencionó anteriormente, sus características son: arquitectura piramidal multiescala + modelo de polarización inductiva local.

Como se muestra en la Figura 4 a continuación, está el marco ConvMAE, que también tiene un codificador y un decodificador. Encoder es una arquitectura híbrida de transformador de convolución y Decoder es una arquitectura de transformador puro.

Primero mire la parte gris del codificador en la esquina superior izquierda. Incluye 3 etapas, sean h y w el tamaño de la imagen de entrada, y las características de salida de cada etapa son respectivamente inserte la descripción de la imagen aquí
. Las dos primeras etapas son módulos de convolución, que usan Bloque convolucional enmascarado para operar en entidades, y su estructura se muestra en la esquina inferior derecha de la figura a continuación (la Convolución profunda usa un núcleo de convolución de 5×5). Entre cada etapa, se realiza una convolución con un paso de 2 para la operación de reducción de resolución. La última etapa es el módulo Transformador, que amplía el campo receptivo e integra las características de todos los parches. Además, los autores encontraron que el rendimiento de codificación de posición absoluta es óptimo.
inserte la descripción de la imagen aquí
1.4 Estrategia de máscara ConvMAE
MAE utiliza una estrategia de máscara aleatoria para el parche de la imagen de entrada, sin embargo, la misma estrategia no se puede aplicar directamente al codificador de ConvMAE. Debido a que las funciones de ConvMAE se reducen gradualmente en diferentes etapas, si se realiza una máscara aleatoria en las funciones, hará que cada token en la etapa stage3 tenga una parte de la información visible. Por lo tanto, el enfoque del autor de ConvMAE es enmascarar la salida de la etapa 3 (como el 75 %) y luego aumentar la muestra de estas máscaras 2 veces y 4 veces respectivamente para obtener las máscaras de las dos primeras etapas. Estos tokens enmascarados se descartan durante la fase de codificación y se espera que puedan reconstruirse después del decodificador. De esta forma, ConvMAE solo necesita quedarse con al menos el 25% de los tokens para entrenamiento.

Sin embargo, el campo receptivo de la convolución en profundidad usando 5×5 en las dos primeras etapas puede ser más grande que el tamaño de un parche enmascarado, por lo tanto, para garantizar la calidad del entrenamiento previo, el autor utilizó la convolución enmascarada[14][ 15] en las dos primeras etapas para garantizar que la parte enmascarada no participe en el proceso de codificación.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/hasque2019/article/details/124816019
Recomendado
Clasificación