Seguimiento de un solo objetivo——[Transformer] SwinTrack: una base simple y sólida para el seguimiento de transformadores

Enlace del artículo: https://arxiv.org/abs/2112.00995
Enlace del código: https://github.com/LitingLin/SwinTrack

Enfoque del artículo

  1. Basado en Swin Transformer en el campo de la detección de objetivos, se construye un algoritmo de seguimiento de objetivos con una estructura Transformer completa: Swin-Track.
  2. Se construye un token de movimiento para tener en cuenta la información de movimiento del objetivo durante el seguimiento, lo que mejora el rendimiento y aumenta la complejidad computacional.
  3. Reemplace la codificación posicional absoluta en el Transformer original con codificación posicional desatada.
  4. Reemplace la función de pérdida de entropía cruzada con pérdida varifocal.

Estructura de red

Por favor agregue la descripción de la imagen.

  • Entrada: imagen del marco actual (escala de recorte = 4), plantilla de destino (escala de recorte = 2)
  • Extracción de representación de características basada en transformador :
    1. Esta parte es la parte de extracción de funciones, que utiliza la estructura de red basada en Siamese para extraer las funciones de la plantilla de destino y las funciones de la región de búsqueda en el mismo espacio de funciones. Facilitar la fusión del objetivo más adelante.
    2. Los experimentos del artículo utilizaron Swin Transformer-Tiny (preentrenado con ImageNet-1k) y Swin Transformer-Base (preentrenado con ImageNet-22k) como redes de extracción de características.
  • Fusión de funciones basada en transformador :
    Hay dos pasos en la fusión de funciones: fusión de funciones de visión (implementación del codificador) + fusión de funciones de movimiento (implementación del decodificador).
    Fusión de características de visión:
    1. Empalme las funciones de la plantilla de destino y las funciones de la región de búsqueda en fm f_mFmcomo entrada.
    2. Se utiliza la estructura del codificador en Transformer: norma de capa (LN) + autoatención multicapa (MSA) + red de avance (FFN). Aquí, la autoatención se utiliza directamente para completar la mejora y la interacción de funciones.
    3. Expresión de fórmula:
      Por favor agregue la descripción de la imagen.en el último paso, DeConcat separa directamente las características para obtener las características de la Región de búsqueda.

Fusión de funciones de movimiento:

  1. Construcción del token de movimiento :
  • Construya un token de movimiento para obtener información de movimiento. Representa la trayectoria histórica del objetivo como un conjunto de cuadros delimitadores (coordenadas de la esquina superior izquierda + coordenadas de la esquina inferior derecha, es decir, x1y1x2y2): os 1 = (os 1 x 1, os 1 y 1, os 1 x 2, os 1 y 2) o_{s_1}={(o_{s_1}^{x_1},o_{s_1}^{y_1},o_{s_1}^{x_2},o_{s_1}^{y_2})}ohs1=( os1X1,ohs1y1,ohs1X2,ohs1y2)Por favor agregue la descripción de la imagen.
    dondennn es el tamaño del conjunto de trayectorias de longitud fija,Δ \DeltaΔ es el intervalo de muestreo. Cuando el marco se muestrea a una cierta distancia, se puede evitar la redundancia de datos causada por el marco de destino demasiado cerca.
  • Las coordenadas del objetivo en la trayectoria anterior son las coordenadas de la imagen completa. Dado que la región de búsqueda se recorta por el centro, las coordenadas del objetivo cambian, por lo que se obtiene la posición del objetivo después del recorte central: T ˉ = o ˉ s 1 , . . . , o ˉ s 1 \bar{T}={\bar{o}_{s_1}, ..., \bar{o}_{s_1}}tˉ=ohˉs1,... ,ohˉs1
  • Normaliza los valores de coordenadas actualmente válidos, mapeándolos al rango de números enteros [1, g] [1,g][ 1 ,g ] , genere un conjunto de incrustación tolerante a fallas:Por favor agregue la descripción de la imagen.donde g representa la granularidad de la incrustación, que puede entenderse como el canal del mapa de características. La configuración g + 1 es un vector de relleno para evitar que el cuadro actual rastree el objetivo. (el objetivo está fuera del campo de visión); w, h son el ancho y el alto de la región de búsqueda.
  • Luego, conecte todos los valores de coordenadas en la colección de trayectorias históricas en E movimiento E_ {moción}mimovimiento _ _ _ _ _y el resultado de la fusión de Vision fz, fx f_z,f_xFz,FxJuntos como entrada al Decodificador.
  1. Decodificador con información de movimiento:
    Por favor agregue la descripción de la imagen.
    La forma del Decodificador es muy similar a la del Codificador, excepto que el MSA se cambia a MCA (Atención cruzada multicapa).
    - Cabezal de predicción : Predicción implementada por un perceptrón de 3 capas.

experimento

Experimento de ablación sin token de movimiento.

1: línea de base (SwinTrack-T-224); 2: usar ResNet50 como columna vertebral; 3: usar MCA para reemplazar MSA en el codificador; 4: usar la consulta de destino para implementar el decodificador; 5: usar codificación de posición sinusoidal absoluta para reemplazar la codificación posicional limitada; 6: utilizar la función de pérdida de entropía cruzada; 7: eliminar el posprocesamiento de la etapa de inferencia: penalización de Hanning.
Por favor agregue la descripción de la imagen.

Experimentos de ablación SwinTrack

1: SwinTrack-T-224; 2: SwinTrack-B-384; 3: SwinTrack-T-224 sin token de movimiento; 4: SwinTrack-B-384 sin token de movimiento; 5: SwinTrack-T-224 Utilice una incrustación aprendida El token reemplaza el token de movimiento.
Por favor agregue la descripción de la imagen.

Supongo que te gusta

Origin blog.csdn.net/qq_42312574/article/details/132558288
Recomendado
Clasificación