Aprendiendo a fusionar mapas de características asimétricas en rastreadores siameses
Dirección de código de dirección de tesis , de hecho no hay
1. Introducción
Características de SiamRPN:
SiamRPN formula el problema de seguimiento como una detección de un solo disparo.
SiamRPN presenta una red de propuesta de región (RPN) y utiliza correlación cruzada de canal ascendente.
UP-XCorr desequilibra la distribución de parámetros, dificultando la optimización del entrenamiento
Características de SiamRPN++
SiamRPN ++ presenta la Correlación en profundidad para generar de manera eficiente un mapa de características de correlación multicanal para abordar el desequilibrio de la distribución de parámetros.
Desventajas de la correlación profunda:
Limitación 1 :
Limitación 2 :
2. Trabajo relacionado
1. Red MD: 2. ÁTOMO: 3. DIMP: 4. BESO: 5. FC Siam:
3. Método
3.1 Redes siamesas para seguimiento
c = f ( z ‾ , x ‾ ) = φ ( z ; θ ) ∗ φ ( x ; θ ) c=f(\overline{z},\overline{x})=\varphi(z;\theta) * \varphi(x;\theta)C=f (z,X)=φ ( z ;yo )∗ϕ ( x ;θ )
dondeφ es la red \varphi es la redφ是n e tw o k
z ‾ = φ ( z ; θ ) ∈ RC × η × ω \overline{z}=\varphi(z;\theta)\in \mathbb{R}^{C\times \eta \veces\omega}z=φ ( z ;yo )∈RC × η × ω
x ‾ = φ ( x ; θ ) ∈ RC × H × W \overline{x}=\varphi(x;\theta)\in \mathbb{R}^{C \times H \times W }X=ϕ ( x ;yo )∈RC × H × W
f es la función que combina el mapa de respuesta del mapa de características y el mapa de respuesta de similitud f es la función que combina el mapa de respuesta del mapa de características y el mapa de respuesta de similitudf es una función que combina el mapa de respuesta del mapa de características y el mapa de respuesta de similitud
-
cdw = f ( z ‾ , x ‾ ) = z ‾ ⊗ z ‾ c_{dw} = f(\overline{z},\overline{x})=\overline{z} \otimes \overline{z}Cdw _=f (z,X)=z⊗z
cdw ∈ RN × ( H − η + 1 ) × ( W − ω + 1 ) c_{dw}\hspace{2mm}\in \hspace{2mm} \mathbb{R}^{N \times (H-\eta +1)\veces (W-\omega +1)}Cdw _∈Rnorte × ( H - η + 1 ) × ( W - ω + 1 )
⊗ se refiere a la operación de convolución de profundidad − dos mapas de características \otimes \hspace{1mm} se refiere a la operación de convolución de dos mapas de características de profundidad⊗Se refiere a la profundidad−con v o l u t i o n operación de w i se dos mapas de características
3.2 Convolución asimétrica
vi = [ θ z θ x ] ∗ [ z ‾ x ‾ i ] = θ z ∗ z ‾ + θ x ∗ x ‾ i v_i = \begin{bmatrix} \theta_z&\theta_x \end{bmatrix}*\begin{bmatrix } \overline{z} \\ \overline{x}_i \end{bmatrix} \\ \hspace{3mm}=\theta_z * \overline{z}+\theta_x*\overline{x}_i \\vyo=[izix]∗[zXyo]=iz∗z+ix∗Xyo
v = { vi ∣ yo ∈ [ 1 , norte ] } = { θ z ∗ z ‾ + segundo θ X ∗ x ‾ yo ∣ yo ∈ [ 1 , norte ] } = θ z ∗ z ‾ + segundo θ X ∗ x ‾ v = \{v_i | i \in [1,n]\} \\ \hspace{34mm}=\{\theta_z*\overline{z} \hspace{2mm}+_b \hspace{2mm} \theta_x* \overline{x}_i \ hspace{4mm} |\hspace{2mm} i \in [1, n] \} \\ \hspace{10mm}=\theta_z * \overline{z} \hspace{2mm} +_b \hspace{2mm} \theta_x * \overline{x}v={ vyo∣ yo∈[ 1 ,n ]}={ yoz∗z+segundoix∗Xyo∣i∈[ 1 ,n ]}=iz∗z+segundoix∗X
en
x ∈ RH × W × C es la característica de la búsqueda a través de la red troncal − mapx\in \mathbb{R}^{H\times W\times C} es el mapa de características de la búsqueda a través de la red troncalX∈RH × W × C eslafuncióndebúsquedadespuésdebckbone______−mapa _
z ∈ R η × ω × c es la característica de la plantilla a través de la columna vertebral − mapz \in \mathbb{R}^{\eta \times \omega \times c} es el mapa de características de la plantilla a través de la columna vertebralz∈Rη × ω × c eslacaracterísticadelaplantilladespuésdebckbonee________−mapa _
θ x ∗ x ‾ ∈ R ( H − η + 1 ) × ( W − ω + 1 ) × P es la respuesta − mapa de xf después de la cabeza ( kernel _ size = zf's kernel _ size = [ η , ω ] ) , la dimensión es [ H − η + 1 , W − ω + 1 , PAGS ] \theta_x * \overline{x} \in \mathbb{R}^{(H-\eta+1)\times(W-\omega +1)\times P} es el mapa de respuesta de x_f después de head(kernel\_size=z_f's kernel\_size=[\eta, \omega]), la dimensión es [H-\eta+1, W-\omega +1,P]ix∗X∈R( H − η + 1 ) × ( W − ω + 1 ) × P是xfDespués de la cabeza ( k er n e l _ s i ze _=zfk er n e l _ t a m a ñ o _=[ h ,ω ] ) después de la respuesta _−mapa , _Las dimensiones son [ H−el+1 ,W−Vaya+1 ,pag ]
θ z ∗ z ‾ ∈ R 1 × 1 × P es la respuesta de zf después de la cabeza (kernel _ size es el mismo que él mismo [ η , ω ] ), la dimensión es [ 1 , 1 , P ] \theta_z * \overline {z} \in \mathbb{R}^{1\times1\times P} es la respuesta de z_f después de head (kernel\_size es igual a sí mismo [\eta, \omega]), y la dimensión es [1 , 1, P]iz∗z∈R1 x 1 x P eszfDespués de la cabeza ( k er n e l _ s i ze es el mismo que uno mismo [ η ,ω ]) después de la respuesta , la dimensión es [ 1 ,1 ,pag ]
+ b y ⊕ tienen significados similares, y también se agregan después de la transmisión, es decir, z ‾ cuya dimensión es [ 1 , 1 , P ], la transmisión es igual a x ‾ [ H − η + 1 , W − ω + 1 , P ] , este paso es el núcleo, que es cambiar la convolución del DW − C orr original en una adición, y el costo de cálculo se reduce naturalmente. +_b y \oplus tienen significados similares, y también se agregan después de la transmisión, es decir, la \overline{z} cuya dimensión es [1, 1, P], se transmite a [H-\eta+1 que es la misma como \overline{x} , W-\omega+1, P], este paso es el núcleo, que consiste en cambiar la convolución del DW-Corr original en adición, y el costo de cálculo se reduce naturalmente.+segundoy⊕El significado es similar , y también se agrega después de la transmisión , es decir, la dimensión es [ 1 ,1 ,P ] _z, b ro a d c a s t Cheng yXlo mismo [ H−el+1 ,W−Vaya+1 ,P ] , este paso es el núcleo, que es convertir el D W original−La convolución de C orr se convierte en suma, y el costo de cálculo se reduce naturalmente.
Este es el trabajo central del documento A través de la descomposición de la fórmula, DW-Corr se transforma en empalme de transmisión de matriz
De hecho, en el código, además del mapa de respuesta de Search_region y el mapa de respuesta de template, bbox=[batch, 4] de search-region está empalmado, y el bbox se interpola y asigna al mapa de características de la región de búsqueda Las coordenadas, y luego, después de que Conv es [lote, 1], se puede empalmar como la Plantilla