Esta referencia a unos pocos respuesta escrita conocido en casi todo bien a entender resumen de enlaces útiles a continuación:
https://zhuanlan.zhihu.com/p/101494393
https://zhuanlan.zhihu.com/p/ 96631118
resumen
SiamRPN comprende subred siamés (Subred siamés) para la región candidato de extracción de características y generar una red (región propuesta subred), en el que la red incluye la generación de clasificación región candidata y la regresión dos ramas. En la fase de seguimiento, SiamRPN será tratada como una sola tareas de inspección de seguimiento de la muestra (de un solo disparo tarea de detección), se considera como la diana de la primera plantilla del marco que la prueba con sus objetivos similares en el interior trama posterior. Gracias a estas mejoras, la tradicional prueba en línea de múltiples escalas y puesta a punto se pueden descartar, al tiempo que aumenta considerablemente la velocidad.
Figura estructura general de la red:
(Aquí se resumen única otra omitido la parte más importante de la arquitectura de red)
marco 3. siamés-RPN
3.1. siamés función de extracción de subred
Esta parte de la estructura de la red en la figura, y SiamFC similares, dividido plantilla rama y detección rama. Utilizar la red de convolución doble completo, las dos ramas comparten el peso. El uso de un Alexnet modificado.
3.2. Región propuesta de subred
porción RPN, rama clasificación (Clasificación Branch), plantilla rama (Frame plantilla) El mapa de características es de 4 x 4 x (2k × 256), rama de detección (marco de detección) El mapa de características es de 4 x 4 x 256. Dos ramas de diferente número de canales, la operación de correlación cruzada implementadas por el paquete. Con la k ancla, cada anclaje es una salida de destino - dos resultados de la clasificación de fondo, por lo que el (2k × 256) de canal de convolución de división de núcleo en 2k grupos, cada función de mapa do-correlacionada cruzada con la rama de detección, para dar es 17 × 17 × 2k.
Volver empatía rama. La salida es de 17 × 17 × 4k. Regresión cuatro coordenadas son dx, dy, dw, dh (ancla en comparación con Groundtruth offset).
función de pérdida como:
rama clasificación de entropía cruzada pérdida de función de pérdida, y la pérdida de retorno se normaliza coordenadas rama L1 de las pérdidas lisas expresadas, específicamente para ver fórmula:
pérdida L1 de suavizado:
Aquí definimos el verdadero valor entre Bbox estándar coordinar distancia:
es una rama de la pérdida de retorno:
3.3. Fase de entrenamiento: de extremo a extremo de tren SiameseRPN
Formación de par de muestras es con un intervalo aleatorio y de Youtube-BB [25] de forma continua desde ILSVRC [29]. SGD utilizando algoritmos de optimización. Doble extracción de características utilizando la red Imagenet es pre-entrenado. El número total de punto de anclaje por cinco, una relación de la escala de 5 ([0.33, 0.5, 1, 2, 3]). positivo de la muestra y la estrategia de selección negativa: establecer los umbrales de alto y bajo, IOU es muestras positivas es mayor de 0,6, menos de 0,3 para muestras negativas, 64 en una muestra de entrenamiento, en el que un máximo de 16 muestras positivas.
4. Seguimiento como la detección de un solo disparo
SiamRPN considerado tareas de seguimiento de pruebas de muestra única (one-shot tarea de detección), el primer cuadro es considerado como detecta el molde diana, detecta objetivos similares en el interior de una trama posterior.
4.1. Formulación
4.2. fase de inferencia: Realizar la detección de una sola vez
El primer cuadro meta como una plantilla en una rama plantilla, en calcular por adelantado el kernel de detección, y luego en el otro marco y la convolución del núcleo, la pista de prueba local considerado como una tarea de una sola vez.
Como se muestra anteriormente, cuando la imagen trama posterior en la red después de la detección, genera una k Propuesta 17 × 17 ×, salida como un punto de ajuste, se puede expresar como:
Dado que la función de clasificación de los mapas, el canal impar está representado por anclaje correspondiente la probabilidad de una muestra positiva. La probabilidad de selección positiva que primeras muestras de K en la totalidad de la propuesta, tal como un nuevo conjunto de puntos:
I, J representa la posición central del anclaje se encuentra, l (impar, en nombre de qué canal) representan la relación correspondiente. Entonces podemos obtener el conjunto de punto de anclaje correspondiente, el valor del anclaje y la regresión Bbox, dando así como resultado la regresión después de la propuesta representa:
4.3. selección de propuestas
4.2 seleccionados para la propuesta K volverá a elegir:
- Descartar la propuesta del centro (pensar en grande ubicación de destino marcos adyacentes no cambia, y el marco de molde diana está en el medio)
- ventana de coseno y cambiar el factor de escala de la propuesta de sanción para reordenar (ventana de coseno y cambiar el factor de escala es el castigo sigue la práctica SiamFC)
- Utilice el NMS para predecir el resultado final del filtro del cuadro delimitador.