Literatura de lectura 1: Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training (traducción del artículo y su propia comprensión y resumen)

Tabla de contenido


prefacio

1. Título del artículo

2. Resumen

Lo traduzco directamente aquí:

三、Introducción

No hay nada que explicar aquí, así que lo traduzco directamente:

四、Trabajo relacionado

(1) Transformadores de visión

(2) Destilación del conocimiento

5. Método

1.Preliminares

  1.1 Convolución

  1.2 MHSA

2.Agente CNN

  2.1 Convolución Generalizada

  2.2 Agente constructor CNN

    Compartir peso

3. Optimización de arranque

  3.1 Supervisión intermedia adaptativa

  3.2 Objetivo de optimización

  3.3 Algoritmo de entrenamiento Bootstrapping

6. Experimentos

1.Implementación

 2.Resultados experimentales

3. Estudio de ablación

4. La elección de las CNN de agentes 

5.Análisis de sensibilidad de hiperparámetros

七、Conclusión y trabajo futuro


Resumir

prefacio

       Mengxin está escribiendo un artículo por primera vez, corríjame si hay algún problema. El propósito de escribir este artículo es registrar el conocimiento y el aprendizaje que he aprendido al leer la literatura, para que pueda buscarlo más tarde y, por cierto, publicarlo en CSDN, porque también soy el primer básico de muchas cosas. , reportando la actitud de empezar desde 0 ¡Ve a aprender! (El artículo ha sido autorizado por el autor~)

       A menos que se indique lo contrario, las imágenes del texto son todas del periódico . Si desea reimprimir, indique la fuente, gracias ~ Espero que este artículo pueda ayudar a todos

1. Título del artículo

Bootstrapping ViTs: hacia la liberación de los transformadores de visión del entrenamiento previo

文献下载:[2112.03552v2] Bootstrapping ViTs: Hacia la liberación de los transformadores de visión del preentrenamiento (arxiv.org) icono-predeterminado.png?t=M4ADhttps://arxiv.org/abs/2112.03552v2

2. Resumen

Lo traduzco directamente aquí:

       En los últimos años, los deformadores de visión (ViT) se han desarrollado rápidamente y comenzaron a desafiar el dominio de las redes neuronales convolucionales (CNN) en la visión por computadora. Con la arquitectura Transformer de propósito general reemplazando el sesgo inductivo codificado de forma rígida de las circunvoluciones, las ViT han superado a las CNN, especialmente cuando los datos son abundantes. Sin embargo, los ViT tienden a sobreajustarse en conjuntos de datos pequeños, por lo que dependen de un entrenamiento previo a gran escala, lo que lleva mucho tiempo. En este documento, nos esforzamos por liberar a los ViT del entrenamiento previo mediante la introducción del sesgo inductivo de CNN en los ViT, al mismo tiempo que conservamos límites superiores más altos en su arquitectura de red y establecemos objetivos de optimización más apropiados. En primer lugar, se diseña una CNN proxy con polarización inductiva en función de la ViT dada. Sobre esta base, se propone un algoritmo de entrenamiento bootstrap para realizar la optimización conjunta del agente y ViT a través del peso compartido, durante el cual ViT aprende el sesgo inductivo de las características intermedias del agente. Los extensos experimentos en CIFAR-10/100 e ImageNet-1k con datos de entrenamiento limitados muestran resultados alentadores de que el sesgo inductivo ayuda a los ViT a converger significativamente más rápido y superar a la CNN tradicional.

El código está disponible públicamente en https://github.com/zhfeing/Bootstrapping-ViTs-pytorch .

Sesgo inductivo: puede aprender de este blog [Aprendizaje automático] Hablando sobre el sesgo inductivo_Flower and Human Things Same Blog-CSDN Blog_Inductive Bias https://blog.csdn.net/qq_39478403/article/details/121107057

三、Introducción

No hay nada que explicar aquí, así que lo traduzco directamente:

       El tremendo éxito de las redes neuronales convolucionales (CNN) ha liberado a los investigadores de la creación manual de funciones visuales. Al sesgar inductivamente, es decir, centrándose en las características locales y el peso compartido, las CNN son herramientas eficaces para las tareas de reconocimiento visual. Sin embargo, estos sesgos limitan su capacidad para construir modelos más grandes y profundos porque ignoran las dependencias a largo plazo.

       En los últimos años, en el procesamiento del lenguaje natural (NLP), se han propuesto transformadores para reemplazar el sesgo inductivo con arquitecturas de red generales. Los transformadores se basan por completo en la atención de múltiples cabezas (MHA) , que es inherentemente capaz de capturar dependencias globales dentro de los tokens de lenguaje, y se ha convertido en el modelo elegido de facto basado en datos en NLP. Inspirándose en esto, cada vez más investigadores han introducido la arquitectura Transformer en el campo de la visión artificial (CV). Un hallazgo alentador es que los transformadores visuales (ViT) superan sustancialmente a los CNN de última generación (SOTA) con una cantidad similar de parámetros. CNN (SOTA): puede usar esto como referencia https://harvard-iacs.github.io/2021-CS109B/lectures/lecture18/presentation/cnn5.pdf

       A pesar de los logros atractivos, los ViT tienen un desempeño deficiente, especialmente sin suficientes anotaciones o estrategias sólidas de aumento de datos. Esto se debe a dos razones: por un lado , el mecanismo de autoatención de cabezales múltiples (MHSA) ampliamente adoptado en ViT tiene conexiones densas con las circunvoluciones, lo que es difícil de optimizar sin un conocimiento previo; por otro lado, Chen et al . Se muestra que los ViT tienden a converger al mínimo en regiones agudas, lo que generalmente se relaciona con una capacidad de generalización limitada y un problema de sobreajuste. Por lo tanto, los esquemas de entrenamiento típicos para Transforms en NLP se basan en un entrenamiento previo a gran escala para tareas posteriores seguidas de un ajuste fino, lo que consume una gran cantidad de tiempo y energía de GPU (TPU). Por ejemplo, Dosovitskiy et al. , necesitaron miles de días de TPU para entrenar previamente ViT con 303 millones de imágenes. Naturalmente, plantea la cuestión de cómo podemos optimizar ViT de manera eficiente sin entrenamiento previo.

       Hasta donde sabemos, los enfoques existentes para este problema se pueden dividir principalmente en dos partes: el primer enfoque intenta devolver el sesgo inductivo a los transformadores, como la atención dispersa y la agregación de etiquetas. Tales modificaciones heurísticas a ViT conducirán inevitablemente a un ajuste complejo de una gran cantidad de hiperparámetros. El propósito del segundo método es construir un esquema de entrenamiento de Transformers adecuado para que converja y tenga una mejor capacidad de generalización. En particular, Chen et al., utilizan un minimizador consciente de la nitidez (SAM) para encontrar mínimos uniformes, mientras que [24, 45] (referencias citadas en el artículo) optimizan los transformadores extrayendo conocimientos de maestros previamente capacitados. Sin embargo, estos métodos aún requieren capacitación previa en conjuntos de datos de escala moderada como ImageNet-1k [29], y cómo entrenar ViT de manera efectiva desde cero con conjuntos de datos relativamente pequeños sigue siendo un problema abierto.

       Inspirándonos en el método de destilación , usando el modelo del maestro para guiar la dirección de optimización del estudiante, en este documento, nos esforzamos por optimizar aún más ViTs usando un proxy CNN, que también se aprende desde cero junto con ViT. Nuestro objetivo es inyectar el sesgo inductivo del proxy CNN en ViT sin modificar su arquitectura, y diseñar un procedimiento de optimización más amigable que permita personalizar ViT en conjuntos de datos a pequeña escala que no requieren capacitación previa.

      Con este fin, proponemos una estrategia de optimización novedosa para entrenar a los transformadores de manera automática, de modo que incluso sin entrenamiento previo o aumento de datos en conjuntos de datos de tamaño mediano, los ViT aún pueden ser competitivos en ausencia de datos de entrenamiento. Específicamente, como se muestra en la Fig. 1 , primero proponemos un agente CNN diseñado para un ViT dado, bajo el efecto del sesgo inductivo, el agente convergerá más rápido que ViT. Luego, optimizamos conjuntamente ViT y el agente en un marco de aprendizaje mutuo, donde las características intermedias del agente supervisan ViT a través de sesgos inductivos para que converja rápidamente. Para reducir la carga de entrenamiento, compartimos aún más los parámetros de ViT con el agente y proponemos un algoritmo de aprendizaje de arranque para actualizar los parámetros compartidos. Llevamos a cabo extensos experimentos en el conjunto de datos CIFAR-10/100 e ImageNet-1k en un entorno de escasez de datos, y los resultados muestran que: (1) Nuestro método ha inyectado con éxito un sesgo inductivo en los ViT porque la velocidad de convergencia del método es significativamente más rápido que el entrenamiento desde cero, y finalmente supera al agente y SOTA CNN; (2) El método de aprendizaje de arranque puede optimizar de manera efectiva los pesos compartidos sin conjuntos de parámetros adicionales.

     Nuestras contribuciones se pueden resumir en tres aspectos:

  1. Proponemos CNN proxy construidas sobre ViT estándar para entrenar ViT de manera eficiente con pesos compartidos y sesgos inductivos.
  2. Proponemos un nuevo algoritmo de optimización de arranque para optimizar los parámetros compartidos.
  3. Nuestros experimentos muestran que, incluso sin entrenamiento previo, las ViT pueden superar a las CNN de SOTA empleando un sesgo inductivo y un objetivo de optimización adecuado.
Figura 1

Figura 1: Mi entendimiento es que la imagen se envía a través de la capa proxy CNN y la capa ViT respectivamente, y las dos capas interactúan entre sí. La CNN proxy supervisa la capa ViT por desviación inductiva, y la capa ViT comparte el peso con la capa proxy CNN y, finalmente, generar el resultado. Este es un marco básico.

四、Trabajo relacionado

El autor narra desde dos grandes aspectos, y resumiré brevemente

(1) Transformadores de visión

       Transformer se ha convertido en el SOTA y el modelo preferido en NLP, y los investigadores comenzaron a usar transformaciones para tareas CV. ViT utiliza una arquitectura Transformer pura para la clasificación de imágenes con gran éxito. Las variantes de ViT se utilizan además para tareas CV más complejas. Sin embargo, ViTs se basa en un entrenamiento previo a gran escala y funciona mal con datos de entrenamiento limitados. Para abordar este problema, algunos métodos intentan introducir un sesgo inductivo en ViT a través de modificaciones heurísticas, como la atención escasa. Otros proponen nuevos esquemas de entrenamiento hechos a la medida de las transformaciones. Sin embargo, estos métodos todavía requieren un entrenamiento previo en conjuntos de datos de tamaño moderado. Cómo optimizar ViT de manera eficiente sin capacitación previa, especialmente en conjuntos de datos pequeños, sigue siendo un problema abierto. Nos esforzamos por inyectar el sesgo inductivo de las CNN en las ViT sin modificar la estructura de la red.

(2) Destilación del conocimiento

Para la destilación del conocimiento, puede consultar este https://zhuanlan.zhihu.com/p/81467832

       Knowledge Distillation (KD) es una técnica de compresión de modelos que transfiere conocimientos ocultos de los profesores a los estudiantes a través de la supervisión de etiquetas blandas. Con el fin de transferir el conocimiento en su totalidad, FitNets también utiliza funciones intermedias para la supervisión, y los trabajos posteriores extraen información más profunda en diferentes aspectos. Recientemente, las variantes de KD (aprendizaje mutuo) han atraído mucho interés porque todos los modelos (estudiantes) están aprendiendo unos de otros simultáneamente. Esta práctica estrategia de aprendizaje se ha aplicado a la reidentificación de personas , la detección de objetos y el reconocimiento facial . Además de la aplicación del aprendizaje mutuo, algunos investigadores introducen más supervisión para mejorar el aprendizaje mutuo, como características intermedias o fusión de características . Inspirándonos en esto, proponemos explotar un proxy CNN optimizado conjuntamente con ViT. Bajo el marco de aprendizaje mutuo con supervisión de características intermedias adaptativas, el sesgo inductivo codificado de forma rígida se transfiere a ViT.

5. Método

      Esta sección presenta la situación preliminar de CNN y ViTs. Luego, en función de la relación entre la capa convolucional y la capa MHSA, se propone un agente CNN para ayudar a entrenar ViT. Finalmente, se describe el algoritmo de optimización de bootstrapping, donde el agente y ViT se optimizan conjuntamente sin entrenamiento previo. El flujo de trabajo de este método se muestra en la Figura 2:

Figura 2

1.Preliminares

  1.1 Convolución

    Una secuencia de tokens visuales   X =(x_{1},x_{2},...,x_{n})\en R^{\,n\veces d_{en}} toma como entrada estruendo} un vector incrustado de dimensionalidad, por lo que k_{h},k_{w}la secuencia de salida de convolución con tamaño de núcleo ( ) es la suma de las proyecciones lineales de X:

Fórmula 1

donde \Phi_{i}es una matriz dispersa constante que representa el sesgo inductivo codificado de forma rígida de las dependencias locales, el tamaño del campo receptivo  N = (k_{h}\veces k_{w})y la matriz de proyección  W_{i}\in R^{\, d_{in}\times d_{out}} es entrenable.

  1.2 MHSA

    El mecanismo de autoatención de múltiples cabezales (MHSA) en ViTs toma una secuencia de marcadores visuales como entrada y también se puede formular como la Ecuación 1:

fórmula 2

 H es el número de cabezas W_{h}^{V\, O}y W_{h}^{V}W_{h}^{O}es la combinación de dos matrices de proyección ( W_{h}^{V}\en R^{\, d\veces d_{k}} , W_{h}^{O}\en R^{\, d_{k}\veces d} , d= H\, d_{k}),

\Psi _{h}\in R^{\, n\times n}es una matriz de atención densa para el cálculo de similitud por pares basada en marcadores de proyección lineal.

2.Agente CNN

    Dado que la Ecuación 1 y la Ecuación 2 son similares, las capas convolucionales pueden considerarse como un caso especial de capas MHSA con matriz relacional escasa Ψ, proponemos construir una CNN proxy basada en un ViT dado, que converge más rápido cuando se entrena desde cero. 

  2.1 Convolución Generalizada

    Primero, proponemos una capa convolucional generalizada cuyo tamaño de campo receptivo N es igual al número de cabezas H de la capa MHSA, denominada CONV , con un sesgo inductivo codificado de forma rígida \small \left \{ \tilde{\Phi }\right \}_{h=1}^{H} :

fórmula 3

  2.2 Agente constructor CNN

imagen 3

 3a: modelo ViT estándar; 3b: proxy CNN básico; 3c: proxy CNN tipo res

     1. El MLP en el agente \pequeño 1\veces 1consta de dos capas convolucionales, equivalentes a las capas completamente conectadas en los transformadores FFN.

     2. En la Figura 3b, la capa MHSA de ViT se reemplaza por la capa CONV y se obtiene el agente base CNN, y lo mismo ocurre con el agente tipo res CNN.

     3. Construimos el agente CNN final tipo res (Fig. 3c) (1) introduciendo un bloque de proyección de entrada estilo ResNet que consta de dos capas convolucionales y una capa de agrupación máxima, (2) en Se toma una muestra descendente configurable después cada capa del codificador.

    4. A través del sesgo inductivo codificado, el agente converge más rápido y tiene un mayor rendimiento que el ViT correspondiente al entrenamiento desde cero, como se muestra en la tercera imagen de la Figura 5 .

    Compartir peso

     Con la estructura de red correspondiente, nuestro agente propuesto acepta pesos compartidos del modelo ViT para reducir la carga de entrenamiento. Debido a la equivalencia de las capas convolucional y FC, los agentes pueden compartir directamente los FFN\grande 1\veces 1 en cada bloque codificador de ViT .

Conceptos básicos de aprendizaje profundo: construcción de redes neuronales de alimentación hacia adelante multicapa (FFN) y capacitación de retropropagación - LittileStar - Blog Park (cnblogs.com) icono-predeterminado.png?t=M4ADhttps://www.cnblogs.com/justLittleStar/p/16226591.html

W_{h}^{V\, O}Además, cuando se comparte con la proyección de salida de MHSA en la Ecuación (2) , CONV tiene la forma:

fórmula 4

 

Deje que la suma \grande y_{c}sea \grande \tilde{y}_{c}el c-ésimo token emitido por la MHSA y comparta CONV en consecuencia. Suponiendo que las secuencias de entrada son las mismas, indicadas por X, la diferencia \large y_{err}=y_{c}-\tilde{y}_{c} se puede escribir como:

fórmula 5

 Debido a la energía limitada, algunas pruebas de esta fórmula se encuentran en el apéndice, puede verificarlo usted mismo si lo necesita.

3. Optimización de arranque

  3.1 Supervisión intermedia adaptativa

    Para inyectar el sesgo inductivo del agente en ViT sin cambiar la estructura de ViT, proponemos un método de supervisión intermedia adaptativa, donde el mapa de características adaptativas del agente supervisa la secuencia visual correspondiente a ViT. Let \large F_{A}^{(\xi )}\large F_{V}^{(\xi )}(no encontré ℓ) respectivamente

Representa un mapa de características aplanado y un proxy para la ℓ-ésima capa del codificador de la secuencia visualizada y ViT, una pérdida intermedia adaptativa para la ℓ-ésima capa de ViT y el proxy

Falta se define como:

fórmula 6

 

    donde \large \tilde{F}= Adapt(F) es una característica adaptativa , obtenida por interpolación de secuencias o agrupación promedio bidimensional. Finalmente, la supervisión intermedia adaptativa es la suma de todas las capas asignadas Λ:

fórmula 7

 

  3.2 Objetivo de optimización

    Además de la supervisión intermedia, presentamos un marco de aprendizaje mutuo, es decir, la probabilidad prevista de aprendizaje mutuo entre ViT (indicado como \grande \rho _{V}) y el agente (indicado como ) es:\grande \rho _{A}

fórmula 8

 donde \grande \bar{p}las variables de representación \ p grandese tratan como vectores constantes, es decir, no se calculan gradientes para las variables en la ruta de propagación directa. \large L_{KD}es la pérdida por destilación del conocimiento definida a la temperatura T, y y representa la etiqueta de verdad básica de la imagen de entrada. Por lo tanto, el objetivo de optimización es:

 α y β son hiperparámetros ponderados que equilibran los dos términos.

  3.3 Algoritmo de entrenamiento Bootstrapping

    El algoritmo 1 presenta el algoritmo de entrenamiento bootstrap, donde los gradientes calculados por cada red se alinean y actualizan conjuntamente los pesos compartidos.

Algoritmo 1

 

6. Experimentos

1.Implementación

     (1) Conjuntos de datos:

                           CIFAR-10 (El conjunto de datos CIFAR-10 contiene 60 000 imágenes en color de 32x32 divididas en 10 clases de 6000 imágenes cada una. Hay 50 000 imágenes de entrenamiento y 10 000 imágenes de prueba)

Descarga de conjuntos de datos CIFAR-10 y CIFAR-100 (toronto.edu)

                           CIFAR-100 (Consta de 60000 imágenes en color de 32x32. Las 100 clases en CIFAR-100 están agrupadas en 20 superclases. Cada clase tiene 600 imágenes. Cada imagen tiene una etiqueta "fina" (la clase a la que pertenece) y una "gruesa". " etiqueta (la superclase a la que pertenece. Cada clase tiene 500 imágenes de entrenamiento y 100 imágenes de prueba)

CIFAR-100 Conjunto de datos | Documentos con código Descarga del conjunto de datos

                           ImageNet-1k

Descarga del conjunto de datos de Image Net (image-net.org)

      Para simular la falta de datos, el 1 %, el 5 % y el 10 % de las muestras etiquetadas se extraen aleatoriamente de la partición de entrenamiento del conjunto de datos de ImageNet. En métodos anteriores, los ViT requieren un fuerte aumento de datos, pero en nuestros experimentos, CNN y ViT solo se optimizan mediante varios métodos de aumento simples, incluido el recorte de tamaño aleatorio y el volteo horizontal aleatorio.

  (2) Transformadores de visión

     La siguiente tabla muestra la configuración detallada del agente CNN y ViTs, donde Layers es el número de capas, Heads es el número de heads y Hidden size es el tamaño de la capa oculta.

Tabla 2

  (3)CNN de agentes

      Los proxies se construyen contra ViT dados y, por lo tanto, comparten la misma configuración de red que ViT. La configuración detallada es la siguiente:

Tabla 6
Tabla 7

Tabla 6 y Tabla 7 : representan la CNN proxy básica y la CNN proxy tipo res, respectivamente, H9' y 'H6' son convoluciones generalizadas con campos receptivos de 9 y 6, respectivamente. Las imágenes de entrada de las CNN proxy y ViT se redimensionan a 224 × 224 píxeles. En cada bloque, la capa CONV reemplaza a la capa MHSA en ViTs. La capa MLP consta de dos capas convolucionales 1×1. Finalmente, las características de la capa de agrupación promedio global se alimentan a una capa completamente conectada (FC) para su clasificación. Down-sampling se refiere a downsampling (reducir la imagen)

  (4) Detalles de entrenamiento y selección de hiperparámetros.

Teoría del diseño del optimizador (AdamW, AdaDeltaW, FTRL) https://zhuanlan.zhihu.com/p/329877052

      Use el marco Pytorch para implementar, use AdamW (puede consultar el documento anterior) para optimizar ViTs y proxy CNN en esquemas de capacitación independientes y conjuntos, la tasa de aprendizaje es 10^{-3}, y la disminución de peso es 5\veces 10^{-2}. Las CNN tradicionales, como ResNet y EfficientNet, utilizan SGD para la optimización, con una tasa de aprendizaje 5\veces 10^{-2}y una disminución del peso de 5\veces 10^{-4}. Entrenamos todas las configuraciones para 240 épocas en dos GPU Nvidia Tesla A100 con un tamaño de lote de 32, utilizando el recocido de coseno como el algoritmo de disminución de la tasa de aprendizaje.

       Establecemos un decaimiento lineal supervisado de características intermedias para preservar la capacidad de ViT y luego comparamos diferentes estrategias de decaimiento.

 2.Resultados experimentales

     Evaluamos nuestro método propuesto utilizando la siguiente configuración de comparación:

  1. CNN: agente independiente y CNN tradicional
  2. ViTs: Las ViTs originales y sus variantes para un entrenamiento eficiente
  3. ViT preentrenados: Transformadores visuales preentrenados en ImageNet-1k y luego ajustados en el conjunto de datos de evaluación
  4. Experimento conjunto: optimización conjunta de Transformers y agentes visuales, los pesos no se comparten
  5. Experimentos compartidos: optimización conjunta de transformadores y agentes visuales, peso compartido

(1) Rendimiento en conjuntos de datos CIFAR.

tabla 1

 De los resultados de la Tabla 1 anterior, se puede concluir que:

(1) Cuando el agente CNN (Agent_S, Agent_B) se entrena solo, su rendimiento es difícil de superar al CNN tradicional (ResNet, EfficientNet)

(2) En ausencia de un preentrenamiento o un fuerte aumento de datos, los ViT funcionan mal debido a la estrecha conexión entre las capas de MHSA (ViTs está disponible en comparación con los ViT preentrenados)

(3) Nuestro método propuesto supera significativamente la configuración de referencia, incluidos los ViT originales y las variantes. En CIFAR-10 y CIFAR-100, ViTs (joint→ViT-s) es 7.82% y 14.94% más alto que la línea de base original (ViTs→ViT-s) respectivamente (la literatura debería estar mal escrita aquí), en menos parámetros Supera agente y EfficientNet-B2 en caso 

(4) En el entorno compartido, la estrategia de aprendizaje con arranque demuestra que los pesos compartidos se pueden optimizar de manera estable con una caída de precisión limitada. Los pesos de ViT se pueden transferir directamente al marco de polarización inductiva codificado de forma rígida, de modo que ViT pueda explotar la polarización inductiva sin un conjunto adicional de parámetros o modificaciones complejas.

Figura 5

 De la Figura 5 se puede concluir que:

(1) Los ViT pueden converger tan rápido como CNN y finalmente alcanzar un límite superior más alto que CNN (observe las líneas azul y verde en las dos primeras figuras, cuando las épocas son altas, son más altas que las líneas punteadas púrpura y naranja correspondientes )

(2) La tercera figura es el resultado de la comparación del experimento de ablación , donde Mutual solo significa entrenamiento con término de destilación de conocimiento mutuo  , y Feat significa solo  entrenamiento L_{mutuo} con término de supervisión intermedia adaptativa  . L_{hazaña}Además, las curvas de los modelos de agentes entrenados individualmente se trazan como agentes. Entre ellos, ambos funcionan mejor.

(2) Rendimiento en ImageNet

Tabla 3

     Los resultados de la comparación de diferentes números de imágenes marcadas en ImageNet-1k se muestran en la Tabla 3: Mehod es Method ( tal vez sea un tipo incorrecto, el niño también es Buji Island ), que indica el método utilizado, el autor seleccionó al azar 5%, 10% y 50% imágenes de entrenamiento. En el caso de escasez extrema de datos, la mejora del método del autor es sobresaliente, mientras que otros métodos muestran mejoras insignificantes o incluso daños.

3. Estudio de ablación

  (1)Ablación de términos de pérdida

    El objetivo de optimización final tiene dos términos: un término de supervisión intermedia adaptativa  L_{hazaña} y un término de aprendizaje mutuo L_{mutuo} . En la Tabla 4 , separamos estos dos términos para evaluar el entorno de aprendizaje conjunto cuando se supervisa, y se puede ver que ambos términos de pérdida contribuyen al resultado final. Para una mejor ilustración, el tercer gráfico de la Figura 5 traza la curva de aprendizaje: el término "Hazaña" converge significativamente más rápido que el término "Mutuo". Por lo tanto, la supervisión a través de funciones intermedias ha inyectado con éxito un sesgo inductivo en ViT.

  Tabla 4

    En la columna Feat, √ significa usar la configuración predeterminada; No Decay significa   L_{hazaña} mantener un peso β constante durante todo el proceso de entrenamiento; AP-2D significa adoptar la agrupación promedio 2D como la función adaptativa en la Ecuación 6.

   (2)Ablación de la estrategia de descomposición

En la Tabla 4 se muestra     el impacto de la estrategia de decaimiento supervisado de características . Sin la estrategia de caída, el rendimiento cae un 1,35 %. Esto puede explicarse por el hecho de que la supervisión continua con sesgo inductivo impide que ViT aprenda dependencias de largo alcance, comprometiendo así el límite superior de ViT.

   (3) Ablación de funciones adaptativas

Los autores evalúan su método      con dos funciones de aptitud de características intermedias: interpolación de secuencia 1D (predeterminada) y agrupación promedio 2D. Los resultados de la comparación se muestran en la Tabla 4 , y la interpolación de secuencias es mejor que la agrupación promedio.

4. La elección de las CNN de agentes 

      Este artículo presenta una CNN proxy con dos arquitecturas de red diferentes (base y res-like). Puede verse en la Tabla 5 que el rendimiento de la estructura tipo res es mejor que el de la estructura base.

Figura 5

5.Análisis de sensibilidad de hiperparámetros

Figura 6

       donde α y β están en la Ecuación 8 y Ten la Ecuación 9. La figura 6 muestra que el método Tes estable a los cambios en α y β; sin embargo, β tiene un impacto más significativo y los ViT funcionan mejor cuando se usa más sesgo inductivo para supervisar los ViT.

七、Conclusión y trabajo futuro

       En este documento, proponemos factorizar y optimizar de manera eficiente los deformadores visuales (ViT) sin necesidad de entrenamiento previo o un fuerte aumento de datos. Nuestro objetivo es introducir el sesgo inductivo de las redes neuronales convolucionales (CNN) en ViTs mientras se preserva la estructura de red de ViTs en un límite superior más alto y establecer objetivos de optimización más apropiados. Con este fin, proponemos optimizar ViT junto con un proxy CNN construido para la arquitectura de red de ViT. ViT aprende el sesgo inductivo a través de la supervisión intermedia adaptativa y las probabilidades previstas .

       En base a esto, se propone un algoritmo de entrenamiento bootstrap para optimizar ViT y agentes con peso compartido. Extensos experimentos han mostrado resultados alentadores de que el sesgo inductivo ayuda a las ViT a converger significativamente más rápido y superar a las CNN tradicionales con menos parámetros. En el trabajo futuro, ampliaremos nuestro enfoque más allá de los sesgos inductivos al estilo de CNN e introduciremos características más interpretables en ViT.

Resumir

       En este artículo, he dominado mucho conocimiento que no había tocado antes, y tengo que aprender mucho contenido por primera vez, lo que ha profundizado mi comprensión de esta dirección. Espero que este artículo pueda ayudarte, por favor corrígeme si tienes alguna pregunta.

Supongo que te gusta

Origin blog.csdn.net/m0_51440939/article/details/124924329
Recomendado
Clasificación