notas de papel SiamRPN

Esta referencia a unos pocos respuesta escrita conocido en casi todo bien a entender resumen de enlaces útiles a continuación:
https://zhuanlan.zhihu.com/p/101494393
https://zhuanlan.zhihu.com/p/ 96631118

resumen

SiamRPN comprende subred siamés (Subred siamés) para la región candidato de extracción de características y generar una red (región propuesta subred), en el que la red incluye la generación de clasificación región candidata y la regresión dos ramas. En la fase de seguimiento, SiamRPN será tratada como una sola tareas de inspección de seguimiento de la muestra (de un solo disparo tarea de detección), se considera como la diana de la primera plantilla del marco que la prueba con sus objetivos similares en el interior trama posterior. Gracias a estas mejoras, la tradicional prueba en línea de múltiples escalas y puesta a punto se pueden descartar, al tiempo que aumenta considerablemente la velocidad.

Figura estructura general de la red:
Aquí Insertar imagen Descripción

(Aquí se resumen única otra omitido la parte más importante de la arquitectura de red)

marco 3. siamés-RPN

3.1. siamés función de extracción de subred

Aquí Insertar imagen Descripción
Esta parte de la estructura de la red en la figura, y SiamFC similares, dividido plantilla rama y detección rama. Utilizar la red de convolución doble completo, las dos ramas comparten el peso. El uso de un Alexnet modificado.

3.2. Región propuesta de subred

Aquí Insertar imagen Descripción
porción RPN, rama clasificación (Clasificación Branch), plantilla rama (Frame plantilla) El mapa de características es de 4 x 4 x (2k × 256), rama de detección (marco de detección) El mapa de características es de 4 x 4 x 256. Dos ramas de diferente número de canales, la operación de correlación cruzada implementadas por el paquete. Con la k ancla, cada anclaje es una salida de destino - dos resultados de la clasificación de fondo, por lo que el (2k × 256) de canal de convolución de división de núcleo en 2k grupos, cada función de mapa do-correlacionada cruzada con la rama de detección, para dar es 17 × 17 × 2k.

Volver empatía rama. La salida es de 17 × 17 × 4k. Regresión cuatro coordenadas son dx, dy, dw, dh (ancla en comparación con Groundtruth offset).

función de pérdida como:
Aquí Insertar imagen Descripción
rama clasificación de entropía cruzada pérdida de función de pérdida, y la pérdida de retorno se normaliza coordenadas rama L1 de las pérdidas lisas expresadas, específicamente para ver fórmula:
pérdida L1 de suavizado:
Aquí Insertar imagen Descripción
Aquí definimos el verdadero valor entre Bbox estándar coordinar distancia:
Aquí Insertar imagen Descripción
es una rama de la pérdida de retorno:
Aquí Insertar imagen Descripción

3.3. Fase de entrenamiento: de extremo a extremo de tren SiameseRPN

Formación de par de muestras es con un intervalo aleatorio y de Youtube-BB [25] de forma continua desde ILSVRC [29]. SGD utilizando algoritmos de optimización. Doble extracción de características utilizando la red Imagenet es pre-entrenado. El número total de punto de anclaje por cinco, una relación de la escala de 5 ([0.33, 0.5, 1, 2, 3]). positivo de la muestra y la estrategia de selección negativa: establecer los umbrales de alto y bajo, IOU es muestras positivas es mayor de 0,6, menos de 0,3 para muestras negativas, 64 en una muestra de entrenamiento, en el que un máximo de 16 muestras positivas.

4. Seguimiento como la detección de un solo disparo

SiamRPN considerado tareas de seguimiento de pruebas de muestra única (one-shot tarea de detección), el primer cuadro es considerado como detecta el molde diana, detecta objetivos similares en el interior de una trama posterior.

4.1. Formulación

4.2. fase de inferencia: Realizar la detección de una sola vez

El primer cuadro meta como una plantilla en una rama plantilla, en calcular por adelantado el kernel de detección, y luego en el otro marco y la convolución del núcleo, la pista de prueba local considerado como una tarea de una sola vez.
Aquí Insertar imagen Descripción

Como se muestra anteriormente, cuando la imagen trama posterior en la red después de la detección, genera una k Propuesta 17 × 17 ×, salida como un punto de ajuste, se puede expresar como:
Aquí Insertar imagen Descripción
Dado que la función de clasificación de los mapas, el canal impar está representado por anclaje correspondiente la probabilidad de una muestra positiva. La probabilidad de selección positiva que primeras muestras de K en la totalidad de la propuesta, tal como un nuevo conjunto de puntos:
Aquí Insertar imagen Descripción
I, J representa la posición central del anclaje se encuentra, l (impar, en nombre de qué canal) representan la relación correspondiente. Entonces podemos obtener el conjunto de punto de anclaje correspondiente, el valor del anclaje y la regresión Bbox, dando así como resultado la regresión después de la propuesta representa:
Aquí Insertar imagen Descripción

4.3. selección de propuestas

4.2 seleccionados para la propuesta K volverá a elegir:

  • Descartar la propuesta del centro (pensar en grande ubicación de destino marcos adyacentes no cambia, y el marco de molde diana está en el medio)
  • ventana de coseno y cambiar el factor de escala de la propuesta de sanción para reordenar (ventana de coseno y cambiar el factor de escala es el castigo sigue la práctica SiamFC)
  • Utilice el NMS para predecir el resultado final del filtro del cuadro delimitador.
Liberadas dos artículos originales · ganado elogios 9 · visitas 160

Supongo que te gusta

Origin blog.csdn.net/qq_45171138/article/details/104863331
Recomendado
Clasificación