Interpretación de aprender a fusionar mapas de características asimétricas en rastreadores siameses

Aprendiendo a fusionar mapas de características asimétricas en rastreadores siameses


Dirección de código de dirección de tesis , de hecho no hay

1. Introducción

Características de SiamRPN:

SiamRPN formula el problema de seguimiento como una detección de un solo disparo.
SiamRPN describe el problema de seguimiento como detección de muestra pequeña

SiamRPN presenta una red de propuesta de región (RPN) y utiliza correlación cruzada de canal ascendente.
SiamRPN presenta una red de recomendación regional y utiliza la correlación cruzada Upchannel

UP-XCorr desequilibra la distribución de parámetros, dificultando la optimización del entrenamiento
La distribución de parámetros UP-XCorr está desequilibrada, lo que dificulta la optimización


Características de SiamRPN++
SiamRPN ++ presenta la Correlación en profundidad para generar de manera eficiente un mapa de características de correlación multicanal para abordar el desequilibrio de la distribución de parámetros.
SiamRPN ++ presenta la correlación en profundidad para generar un mapa de características multicanal para describir la distribución de parámetros

Desventajas de la correlación profunda:

Limitación 1 :
DW-Corr produce respuestas de correlación similares para el objetivo y los distractores de apariencia homogénea, lo que dificulta que RPN discrimine de manera efectiva el objetivo deseado de los distractores.
DW-Corr generará algunos mapas de respuesta con alta respuesta entre el objetivo (plantilla) y los distractores (región de búsqueda) objetos similares, lo que dificultará que RPN distinga efectivamente el objetivo requerido (porque algunos objetivos falsos y reales son similar, y los valores de respuesta en los gráficos de respuesta también son altos)

Limitación 2 :
Solo unos pocos canales en el mapa de características de DW-Corr están activados
Solo se activa una pequeña parte del canal DW-Corr (la redundancia de características útiles e inútiles es demasiado alta)
Para realizar DW-Corr, se desea que las características de diferentes objetivos sean ortogonales y distribuidas en diferentes canales, de modo que los canales de características de correlación de diferentes objetivos se supriman y solo se activen unos pocos canales del mismo objetivo.
Las características de diferentes objetivos (plantillas) deben ser ortogonales y distribuidas en diferentes canales, por lo que se suprimirán los canales de características de información mutua de diferentes objetivos entre los dos mapas de características utilizados para calcular información mutua (valor de respuesta bajo), y solo algunos canales con el mismo objetivo estarán activos (valor de respuesta alto) canales
DW-Corr a menudo produce una respuesta en un fondo irrelevante, como consecuencia, los mapas de correlación a menudo son borrosos y no tienen límites claros y dificultan que RPN realice una predicción precisa y sólida.
DW-Corr a menudo produce una respuesta en un fondo irrelevante (valor de respuesta alto), el resultado es que el gráfico de respuesta se verá borroso y no tendrá límites obvios (quemados juntos) y evitará que la red RPN produzca predicciones precisas de Lupin.

2. Trabajo relacionado

1. Red MD:
El rastreador de MDNet emplea una CNN entrenada fuera de línea a partir de múltiples videos anotados. Durante la evaluación, aprende un detector de dominio específico en línea para discriminar entre el fondo y el primer plano.
El rastreador de MDNet entrena una CNN fuera de línea con múltiples videos anotados. En la etapa de evaluación, se aprende un detector en línea para una región específica para distinguir el primer plano del fondo.
2. ÁTOMO:
ATOM consta de dos componentes dedicados: estimación de objetivos, que se entrena fuera de línea, y clasificación entrenada en línea
ATOM consta de dos partes dedicadas: un módulo de estimación de objetos entrenado fuera de línea y un módulo de clasificación entrenado en línea
3. DIMP:
DiMP emplea una arquitectura basada en metaaprendizaje, entrenada fuera de línea, que predice los pesos del modelo de destino
DiMP utiliza una arquitectura de entrenamiento fuera de línea de metaaprendizaje para predecir los pesos del modelo objetivo (ATOM)
4. BESO:
KYS extiende DiMP al explotar la información de la escena para mejorar los resultados
KYS utiliza información ambiental y marco de información (información espacial-temporal) para expandir DiMP y mejorar los resultados
5. FC Siam:
SiamFC primero presenta la capa XCorr para combinar mapas de características

3. Método

3.1 Redes siamesas para seguimiento

  • Las redes siamesas formulan la tarea de seguimiento como el aprendizaje de un mapa de similitud general entre los mapas de características extraídos de la plantilla de destino y la región de búsqueda. Cuando ciertas ventanas deslizantes en la región de búsqueda son similares a la plantilla, las respuestas en estas ventanas son altas.
La tarea de seguimiento de la descripción de la red siamesa es aprender un mapa de respuesta de similitud entre el mapa de características extraído de la plantilla y el área de búsqueda. Cuando una ventana deslizante en el área de búsqueda es similar a la plantilla, el valor de respuesta de similitud de estas ventanas será alto

c = f ( z ‾ , x ‾ ) = φ ( z ; θ ) ∗ φ ( x ; θ ) c=f(\overline{z},\overline{x})=\varphi(z;\theta) * \varphi(x;\theta)C=f (z,X)=φ ( z ;yo )ϕ ( x ;θ )
donde

φ es la red \varphi es la redφn e tw o k

z ‾ = φ ( z ; θ ) ∈ RC × η × ω \overline{z}=\varphi(z;\theta)\in \mathbb{R}^{C\times \eta \veces\omega}z=φ ( z ;yo )RC × η × ω

x ‾ = φ ( x ; θ ) ∈ RC × H × W \overline{x}=\varphi(x;\theta)\in \mathbb{R}^{C \times H \times W }X=ϕ ( x ;yo )RC × H × W

f es la función que combina el mapa de respuesta del mapa de características y el mapa de respuesta de similitud f es la función que combina el mapa de respuesta del mapa de características y el mapa de respuesta de similitudf es una función que combina el mapa de respuesta del mapa de características y el mapa de respuesta de similitud



-
SiamRPN ++ presenta DW-Corr que aborda los desequilibrios de distribución de parámetros para generar de manera eficiente un mapa de características de correlación multicanal
SiamRPN ++ presenta profundidad para describir la distribución desigual de parámetros y genera un gráfico de respuesta de correlación cruzada multicanal

cdw = f ( z ‾ , x ‾ ) = z ‾ ⊗ z ‾ c_{dw} = f(\overline{z},\overline{x})=\overline{z} \otimes \overline{z}Cdw _=f (z,X)=zz

cdw ∈ RN × ( H − η + 1 ) × ( W − ω + 1 ) c_{dw}\hspace{2mm}\in \hspace{2mm} \mathbb{R}^{N \times (H-\eta +1)\veces (W-\omega +1)}Cdw _Rnorte × ( H - η + 1 ) × ( W - ω + 1 )

⊗ se refiere a la operación de convolución de profundidad − dos mapas de características \otimes \hspace{1mm} se refiere a la operación de convolución de dos mapas de características de profundidadSe refiere a la profundidadcon v o l u t i o n operación de w i se dos mapas de características

3.2 Convolución asimétrica

Para eludir los cálculos costosos, el autor introduce un procedimiento matemáticamente equivalente, llamado convolución asimétrica, que reemplaza esta convolución directa en el mapa de características concatenado con dos convoluciones independientes.
Para evitar el alto costo computacional, el autor introdujo un proceso matemáticamente equivalente a DW-Corr, llamado AC, a través de dos convoluciones independientes, y luego empalme de transmisión.

MCA

vi = [ θ z θ x ] ∗ [ z ‾ x ‾ i ] = θ z ∗ z ‾ + θ x ∗ x ‾ i v_i = \begin{bmatrix} \theta_z&\theta_x \end{bmatrix}*\begin{bmatrix } \overline{z} \\ \overline{x}_i \end{bmatrix} \\ \hspace{3mm}=\theta_z * \overline{z}+\theta_x*\overline{x}_i \\vyo=[izix][zXyo]=izz+ixXyo
v = { vi ∣ yo ∈ [ 1 , norte ] } = { θ z ∗ z ‾ + segundo θ X ∗ x ‾ yo ∣ yo ∈ [ 1 , norte ] } = θ z ∗ z ‾ + segundo θ X ∗ x ‾ v = \{v_i | i \in [1,n]\} \\ \hspace{34mm}=\{\theta_z*\overline{z} \hspace{2mm}+_b \hspace{2mm} \theta_x* \overline{x}_i \ hspace{4mm} |\hspace{2mm} i \in [1, n] \} \\ \hspace{10mm}=\theta_z * \overline{z} \hspace{2mm} +_b \hspace{2mm} \theta_x * \overline{x}v={ vyoyo[ 1 ,n ]}={ yozz+segundoixXyoi[ 1 ,n ]}=izz+segundoixX
en

  • x ∈ RH × W × C es la característica de la búsqueda a través de la red troncal − mapx\in \mathbb{R}^{H\times W\times C} es el mapa de características de la búsqueda a través de la red troncalXRH × W × C eslafuncióndebúsquedadespuésdebckbone______mapa _

  • z ∈ R η × ω × c es la característica de la plantilla a través de la columna vertebral − mapz \in \mathbb{R}^{\eta \times \omega \times c} es el mapa de características de la plantilla a través de la columna vertebralzRη × ω × c eslacaracterísticadelaplantilladespuésdebckbonee________mapa _

  • θ x ∗ x ‾ ∈ R ( H − η + 1 ) × ( W − ω + 1 ) × P es la respuesta − mapa de xf después de la cabeza ( kernel _ size = zf's kernel _ size = [ η , ω ] ) , la dimensión es [ H − η + 1 , W − ω + 1 , PAGS ] \theta_x * \overline{x} \in \mathbb{R}^{(H-\eta+1)\times(W-\omega +1)\times P} es el mapa de respuesta de x_f después de head(kernel\_size=z_f's kernel\_size=[\eta, \omega]), la dimensión es [H-\eta+1, W-\omega +1,P]ixXR( H η + 1 ) × ( W ω + 1 ) × PxfDespués de la cabeza ( k er n e l _ s i ze _=zfk er n e l _ t a m a ñ o _=[ h ,ω ] ) después de la respuesta _mapa , _Las dimensiones son [ Hel+1 ,WVaya+1 ,pag ]

  • θ z ∗ z ‾ ∈ R 1 × 1 × P es la respuesta de zf después de la cabeza (kernel _ size es el mismo que él mismo [ η , ω ] ), la dimensión es [ 1 , 1 , P ] \theta_z * \overline {z} \in \mathbb{R}^{1\times1\times P} es la respuesta de z_f después de head (kernel\_size es igual a sí mismo [\eta, \omega]), y la dimensión es [1 , 1, P]izzR1 x 1 x P eszfDespués de la cabeza ( k er n e l _ s i ze es el mismo que uno mismo [ η ,ω ]) después de la respuesta , la dimensión es [ 1 ,1 ,pag ]

  • + b y ⊕ tienen significados similares, y también se agregan después de la transmisión, es decir, z ‾ cuya dimensión es [ 1 , 1 , P ], la transmisión es igual a x ‾ [ H − η + 1 , W − ω + 1 , P ] , este paso es el núcleo, que es cambiar la convolución del DW − C orr original en una adición, y el costo de cálculo se reduce naturalmente. +_b y \oplus tienen significados similares, y también se agregan después de la transmisión, es decir, la \overline{z} cuya dimensión es [1, 1, P], se transmite a [H-\eta+1 que es la misma como \overline{x} , W-\omega+1, P], este paso es el núcleo, que consiste en cambiar la convolución del DW-Corr original en adición, y el costo de cálculo se reduce naturalmente.+segundoyEl significado es similar , y también se agrega después de la transmisión , es decir, la dimensión es [ 1 ,1 ,P ] _z, b ro a d c a s t Cheng yXlo mismo [ Hel+1 ,WVaya+1 ,P ] , este paso es el núcleo, que es convertir el D W originalLa convolución de C orr se convierte en suma, y ​​el costo de cálculo se reduce naturalmente.

Este es el trabajo central del documento A través de la descomposición de la fórmula, DW-Corr se transforma en empalme de transmisión de matriz

De hecho, en el código, además del mapa de respuesta de Search_region y el mapa de respuesta de template, bbox=[batch, 4] de search-region está empalmado, y el bbox se interpola y asigna al mapa de características de la región de búsqueda Las coordenadas, y luego, después de que Conv es [lote, 1], se puede empalmar como la Plantilla

3.3 Red con columna vertebral, cuello y cabeza

De hecho, se ha realizado una pequeña modificación en SiamBAN, esta vez se ha introducido el tiempo de basura y el modelo de red.

SiamBAN

Template Search layer4 layer3 layer2 zf_layer4 xf_layer4 conv_kernel conv_search head conv_kernel conv_search head zf_layer3 xf_layer3 conv_kernel conv_search head conv_kernel conv_search head zf_layer3 xf_layer3 conv_kernel conv_search conv_kernel conv_search head head cls_layer4 loc_layer4 cls_layer3 loc_layer3 cls_layer2 loc_layer2 cls loc 算术平均 算术平均 zf尺寸的核 zf尺寸的核 search_bbox + 插卷 search_bbox search_bbox 插卷 search_bbox + + + + + search_bbox 插卷 search_bbox search_bbox 插卷 search_bbox search_bbox 插卷 search_bbox search_bbox 插卷 search_bbox

Supongo que te gusta

Origin blog.csdn.net/Soonki/article/details/131230760
Recomendado
Clasificación