Una revisión de la investigación sobre transformadores visuales en el campo de la visión de bajo nivel.

Principios básicos del transformador visual.

Insertar descripción de la imagen aquí

En el proceso de procesamiento de imágenes, ViT primero divide la imagen de entrada en bloques, realiza codificación lineal y mapeo en ellos, y luego los organiza en una pila de vectores como entrada del codificador. En la tarea de clasificación, se agrega un vector que se puede aprender a este vector unidimensional El vector de incrustación se utiliza como una representación del resultado de la predicción de categoría para la clasificación, y el resultado finalmente se genera a través de una capa completamente conectada.

mecanismo de atención

El mecanismo de atención permite que la red se centre más en la información relevante de la entrada, reduciendo así la atención a la información irrelevante.

pasos de cálculo:

Divida la ^entrada^_ _ ^_ _ ^_ _ v ^t
q ⁱ = a ⁱ W ^q k ⁱ =a ⁱ W ^k v ⁱ =a ⁱ W ^v
donde q ⁱ representa el vector de consulta, que se comparará con cada k ⁱ
más adelante. k ⁱ representa el vector consultado, que será posteriormente Para cada coincidencia de q ^{i , v}ⁱ representa el vector de información extraído de a ⁱ
Calcula la similitud entre q ⁱ y k ^{i para obtener el peso.}
Normalice los pesos de similitud. La función softmax se utiliza a menudo para normalizar la matriz de similitud en una matriz de ponderación de atención.

La función softMax se puede utilizar para convertir valores de salida de varias clases en una distribución de probabilidad que oscila entre [0,1] y 1.
La atención se obtiene sumando los vectores de información según el peso:

donde L _x representa la longitud de la secuencia de entrada, Similitud representa el cálculo de similitud, Q, K y V representan el vector de consulta, el vector consultado y el vector de información respectivamente.

Serialización de imágenes y codificación posicional.

La entrada de Transfomer es una secuencia, para poder procesar la imagen es necesario convertir la imagen bidimensional en una secuencia unidimensional.
Insertar descripción de la imagen aquí

Módulo transformador

El módulo Transfomer se basa en la arquitectura de codificador y decodificador, y el codificador y decodificador se componen de múltiples capas. El codificador es responsable de extraer características y el decodificador es responsable de convertir las características extraídas en resultados. El codificador consta de una capa de atención y una capa completamente conectada.
Insertar descripción de la imagen aquí