Totalmente convolucional siameses Redes de notas de papel de seguimiento de objetos

Resumen.

Tradicionalmente, cualquier problema seguimiento del objetivo se resuelve por el aspecto del modelo de objetivos de aprendizaje en línea, utilizando el video como los datos sólo de formación. A pesar del éxito de estos métodos, pero son sólo en línea método de aprendizaje limita la riqueza de su modelo puede aprender de la naturaleza. Recientemente, varios intentos de desarrollar la capacidad de expresar la profundidad de la excavación de convolución de la red. Sin embargo, cuando el objetivo de seguimiento conocidas de antemano, tenemos que estar en línea de descenso de gradiente estocástico (SGD) para ajustar los pesos de la red, afectado gravemente a la velocidad del sistema. En este trabajo, el conjunto de datos ILSVRC15 detección de objetos de vídeo, convolución completa utilizando la red siamés extremo formación, un algoritmo de seguimiento básico. Nuestro gestor de la operación más allá de la velocidad de fotogramas en tiempo real, a pesar de que es muy simple, pero en VOT2015 de referencia ha alcanzado el rendimiento más avanzado.

Introducción

Consideramos que el seguimiento de un objeto arbitrario en un video, donde los objetos sólo se identifican por el marco rectangular en el primer cuadro. Dado que el algoritmo puede ser necesaria para el seguimiento de cualquier objeto, es imposible tener los datos recogidos y detector de formación.

Con los años, el ejemplo más exitoso de resolver este problema es utilizar el aspecto del modelo [1] Los ejemplos de muestras extraídas del propio vídeo, objetos en el modo de aprendizaje en línea . El éxito de este enfoque debido a MILTrack [2], Struck [3 ], TLD [4] y KCF [5] capacidades en gran medida. Sin embargo, el uso de los datos de vídeo actuales de una falla obvia es que sólo un modelo relativamente simple de aprender. Mientras que otro problema en la visión artificial ha tenido un uso cada vez más generalizado de grandes conjuntos de datos supervisar la formación de la red de la profundidad de convolución (conv -nets), pero las limitaciones y la escasez de operación en tiempo real los datos de seguimiento en este estudio a fondo impedido cada video para aprender ejemplo una aplicación del detector es.

Trabajos recientes han tratado de superar esta limitación, tratar de aplicar la red de convolución profundidad diferente formados a partir de los otros, pero relacionados tareas. Estos métodos utilizan la red ya sea superficial (por ejemplo, filtro de correlación), utilizando la representación interna de una función de red [6,7], o el uso SGD (estocástico descenso de gradiente) para ajustar la red de múltiples capas [8,9]. El uso de una red de aproximación plana no sacar el máximo provecho de los beneficios de extremo a aprender, y el uso SGD en el proceso de seguimiento para lograr un mayor nivel de resultados no cumplen con los requisitos de tiempo real.

Proponemos otro método, es decir, en la formación de etapa inicial de la red fuera de línea para resolver los problemas de aprendizaje de profundidad convolución similitud más generales, a continuación, una simple evaluación de la similitud en el proceso de seguimiento . La principal contribución de este trabajo es demostrar el método más rápido de lo requisitos de tiempo real, obtener un rendimiento competitivo en el seguimiento de la línea de base moderna. En particular, hemos formado una red doble para localizar la imagen plantilla de una búsqueda de imágenes en grande. Una contribución adicional es proporcionar una arquitectura de red nuevo conjunto en la búsqueda de convolución twin completo para una imagen: capa bilineal por correlación cruzada de las dos entradas se calcula para alcanzar un denso y evaluación eficiente de la ventana deslizante.

Suponemos que los métodos de aprendizaje similares han sido relativamente descuidada, porque muchas de las comunidades no han seguimiento de los conjuntos de datos de la etiqueta. Hasta hace poco, los datos disponibles también establece sólo unos cientos de vídeos con comentarios. Sin embargo, creemos, IMAGEnet a gran escala reto reconocimiento visual (IMAGEnet reconocimiento Desafío, Gran Escala Visual ILSVRC) conjunto de datos de detección de objetos de vídeo aparece (en adelante como IMAGEnet video) hace posible entrenar a un modelo de este tipo. Además, la imparcialidad del modelo de profundidad de la formación y las pruebas para el uso del vídeo de seguimiento de vídeo de la misma zona es un punto de controversia. Mostramos nuestro modelo se extiende desde IMAGEnet vídeo a ALOV / VOT, el conjunto de datos de referencia de seguimiento puede ser reservado para propósitos de prueba.

aprendizaje para el seguimiento de 2 similitud profunda

Se puede utilizar para realizar un seguimiento de cualquier similitud objetivo de aprender a resolver. Recomendamos el aprendizaje de una función f (z, x) será una imagen de la plantilla z del mismo tamaño de una imagen candidata comparación x, si las dos imágenes del mismo objeto de descripción, devuelve alta, de lo contrario baja puntuación . Para encontrar la ubicación del objeto en la nueva imagen, podemos probar de manera exhaustiva todos los lugares posibles, y seleccione el objeto más allá de la apariencia de la mayoría posición candidata similar. En el experimento, simplemente vamos a utilizar la apariencia inicial del objeto como una plantilla . La función f de la trayectoria de objetivo marcado de datos de vídeo para centrarse en el aprendizaje.

En vista de su éxito generalizado [11,12,13,14] en la visión por ordenador, vamos a utilizar la red como una función de la profundidad de convolución f. Similar estudio en profundidad convolución de arquitectura de red comúnmente utilizados para resolver el gemelo [15,16,17]. Dos de red de entrada doble para hacer la misma conversión ([PHI]), los resultados finales de la transformación de la función g de unión :
la función g es simplemente una medida de distancia o de similitud, se puede ver que la función [PHI] es una función incrustado. profundidad siamés red neural convolucional previamente se ha aplicado a la verificación facial [16,18,12], el estudio descriptor punto clave [17, 19] y de reconocimiento de caracteres desechable [20] y otras tareas

2.1 Arquitectura siameses totalmente convolucional

Convolución todas las ventajas de la red, que puede proporcionar una búsqueda de imágenes mucho más grande que la entrada de la red, en lugar de un candidato de la misma imagen a tamaño. red de convolución completa para calcular la similitud de todas las ventanas secundarias de traslación densa cuadrícula en la primera evaluación. Para lograr esto, utilizamos una convolución función incrustada, y la correlación cruzada usando una combinación de características de la capa de la figura obtuvimos : Aquí Insertar imagen Descripción
donde b es un número real que representa una señal más en cada ubicación. El resultado final no es un solo marcador, pero una rejilla finita dibujado en la puntuación de la figura, como se muestra en la Figura. φ (z) no es un vector, pero una estructura espacial con una característica de la fig. convolución completa estructura de la red doble: la salida es un valor escalar el mapa de puntuación, que depende del tamaño de la búsqueda de imágenes.  Esto hace que sea posible calcular las búsquedas de similitud de la función de imagen en todas las ventanas secundarias de una evaluación de la traducción.  En la presente realización, el mapa puntuación pixel incluye sub-ventana de rojo y azul que corresponde al grado de similitud.  El color mejor.convolución completa estructura de la red doble: la salida es un valor escalar el mapa de puntuación, que depende del tamaño de la búsqueda de imágenes. Esto hace que sea posible calcular las búsquedas de similitud de la función de imagen en todas las ventanas secundarias de una evaluación de la traducción. En la presente realización, el mapa puntuación pixel incluye sub-ventana de rojo y azul que corresponde al grado de similitud. El color mejor.

En la pista, se utilizó la anterior ubicación de la imagen de destino como el centro de la búsqueda. Máxima puntuación de similitud con respecto a la posición del centro de la fracción de la figura, se multiplica el tamaño de paso de la red, el desplazamiento de la diana se puede obtener a partir de una trama a otra es . En respuesta a los cambios de escala, haciendo el seguimiento, sino que también utiliza una variedad de tamaños para buscar. En la búsqueda para ampliar la imagen, en el que la fusión correlación cruzada frente a la red desechable evaluar matemáticamente equivalente a usar el producto de fusión en el que se evalúan cada ventana de la figura niño traducción.

2.2 Entrenamiento con grandes imágenes de la búsqueda

En este trabajo se utiliza un método discriminante, con muestras positivas y negativas para la formación de una red. la pérdida de la lógica:

Aquí Insertar imagen Descripción
v es un par de formulario - verdadera similitud imágenes candidatos puntuación, y∈ {-1,1} es el verdadero valor de la etiqueta . Durante el entrenamiento, se utiliza una imagen de una búsqueda más grande (búsqueda de imágenes contiene múltiples candidato sub-gráfico) imagen de la plantilla y, usando las características de convolución de pleno derecho de la red, para generar eficientemente múltiples plantilla de una sola vez - la imagen candidata similitud anotar. Generar un mapa marcador final. La pérdida de todo el conjunto de mapa puntuación para una sola media de la muestra de las pérdidas:
Aquí Insertar imagen Descripción
Cada posición en los puntos de rejilla D de la figura u, etiqueta de valor verdadero y [u] ∈ {-1,1} .

pérdida funcional de la utilización del algoritmo de descenso de gradiente estocástico se puede obtener parámetros de red de convolución θ:
Aquí Insertar imagen Descripción
extraer de los datos de vídeo de la plantilla de la imagen como el centro de la muestra imagen de destino de búsqueda y anotados enfoque, como se muestra en la figura. Cuando la ventana se extiende la imagen de la sub-rango más allá de, la parte que falta se llena con media RGB.
Aquí Insertar imagen Descripción

Cada uno la búsqueda de imágenes imagen de la plantilla y se extrae de un mismo video dos, las dos tramas contienen el blanco, y un intervalo máximo de T marco. categoría objetivo es completamente ignorada en la formación. Sin daño se normaliza la imagen de la relación de aspecto del tamaño de cada objeto en la imagen. El resultado del dibujo, no más que el radio R de la posición central de las muestras positivas pertenecen (es decir, el verdadero valor de 1), la parte restante de la muestra negativa (verdadero valor de -1) . Ponderado muestras positivas y negativas de la función de pérdida, a fin de eliminar la categoría de desequilibrio. R valores determinados por paso:
Aquí Insertar imagen Descripción
la búsqueda de la imagen de destino al centro para mejorar la eficiencia de búsqueda, ya que el impacto sobre el rendimiento de los más grandes de seguimiento regional de la meta sub-ventana está cerca.

2.3 IMAGEnet vídeo para el seguimiento

2015 Gran Escala Visual reconocimiento Desafío IMAGEnet
(ILSVRC) [10] presentó datos de vídeo IMAGEnet de vídeo establecida como una nueva retos detección de objetivos
. Los participantes necesitan 30 tipos de objetos de diferentes tipos de animales y vehículos para clasificar y posicionamiento. Sólo el conjunto de entrenamiento contiene casi 4000 de vídeo, un total de más de un millón de marcos con los comentarios. Si la VOT [22], ALOV [1 ] y OTB [23] en un total de menos de 500 secuencia de la etiqueta de la de vídeo, esta cifra es particularmente impresionante. Creemos que este conjunto de datos debe llevar el seguimiento de la comunidad de gran interés, no sólo debido a su enorme tamaño, sino también porque abarca distintos escenarios y objetos con seguimiento estándar de la línea de base. Por esta razón, puede ser utilizado con seguridad para rastrear la profundidad del modelo de formación, sin temor a un exceso de ajuste estándar usado en estos campos.

2.4 Consideraciones prácticas

curación conjunto de datos

  • Para hacer que el vídeo IMAGEnet más adecuado para el seguimiento de blancos, hicimos las siguientes modificaciones. Nos dimos por vencidos serpientes, los trenes, las ballenas y los lagartos, ya que estos objetos tienden a ocupar una pequeña porción de su forma rectangular o extenderse hasta el borde de la imagen.
  • Se excluyeron mayor área de 0,75 2 o menos de 0,1 2 objeto.
  • Se excluyó el borde del marco de la imagen a la distancia del objeto es inferior al 5% de las dimensiones medias. Esto es para eliminar el ejemplo de un truncadas límites de la imagen de destino.

El conjunto de datos por el video 2820 objetivo consiste en 843.371.

la normalización de la escala

  • En el entrenamiento, estamos utilizando el tamaño de la imagen de la plantilla es de 127 × 127 píxeles, la búsqueda de imágenes es de 255 × 255 píxeles . Si el tamaño del cuadro delimitador para el (w, h), y relleno de fondo un tamaño de p, entonces el factor de escala s debe ser tal que el tamaño de la imagen es una constante a escala:
    Aquí Insertar imagen Descripción
    la imagen de la plantilla para, A = 127 2 , en la búsqueda de imágenes, A = 255 2 . Ajuste el relleno de fondo un tamaño p = (w + h) / 4. imagen de la plantilla y la búsqueda se pasan por un tratamiento previo, para evitar cambios en el tamaño del proceso de formación.

Arquitectura de red
estructura de red función de la incrustación de φ empleado en este documento et al 2012 Krizhevsky de Alexnet , los parámetros y dimensiones de las capas respectivas se muestran en la Tabla. En donde representa el número de canales por Chan.map convolución de las capas de entrada y de salida.
Aquí Insertar imagen Descripción
Para esta capa de fondo común, elegimos la piscina más grande de (Max puesta en común). Relu utilizando una convolución función de activación no lineal después de cada capa, además de la quinta capa es la última capa. proceso de formación, después de cada capa inmediatamente con un bloque lineal normalizada (batch-normalización). La etapa final fue 8. El punto importante es, no consideramos la frontera para llenar (relleno).

Algoritmo de seguimiento
con más sofisticado diferente de seguimiento, no actualizamos la apariencia de modelo o mantener la memoria del pasado, no se combina con otras pistas, como el flujo óptico o el histograma de color, no utilizamos la regresión del cuadro delimitador para mejorar nuestro pronóstico. Sin embargo, mientras algoritmo de seguimiento es muy simple, pero cuando aprendimos a utilizar cuando la función de similitud métricas, que obtiene buenos resultados sorprendentes. Hemos añadido un límite de tiempo básico: Sólo buscar objetos dentro de aproximadamente cuatro veces el tamaño de la zona anteriormente, y añadir una ventana de coseno en la figura puntuación para reducir el impacto causado por el gran desplazamiento . (Esta parte no se entiende completamente y así leer el código de nuevo al día) camino de alcanzar el espacio de escala mediante la búsqueda en múltiples versión a escala del procesamiento de imágenes. será castigado ningún cambio en el tamaño, también se verá afectado el tamaño actual de la actualización.

3 experimentos

3.1 El punto de referencia VOT 2015

En todos nuestros experimentos, utilizamos la última versión estable de Visual objeto
de seguimiento (VOT) Índice de referencia. VOT evaluará el seguidor 60 en la secuencia. La secuencia seleccionada de la escena desafiando así siete representan. Muchas otras secuencias originalmente presentes en el conjunto de datos (por ejemplo ALOV [1] y la OTB [23]).

En conjunto referencia VOT, y se considera que ha fallado cuando la proyecta cuadro 0 y el verdadero valor de la relación de cross-intersección-over-unión (IOU) que delimita , en cinco después de la falla, el tracker inicializado automáticamente. Tracker se evalúa en base a dos indicadores de desempeño: la precisión y robustez de precisión y robustez. El ex promedio IOU calculada, que representa el número total de errores . Estos dos indicadores también pueden reflejar el rendimiento del seguidor. Sin embargo, para obtener un único índice para comparar el rastreador usando la esperada transversal media media Coverlap y su medida de lo esperado , el cálculo del índice medio de reconocimiento de deuda, y no se reinicializa después de un fallo.

3.2 Los detalles de implementación

El entrenamiento de la red parámetros es a través de twin 2,2 SGD función de optimización pérdida vienen, el valor inicial del parámetro de distribución de Gauss, Xavier mejoró método de acuerdo con [25] a escala. Formación realizó cincuenta iteraciones, cada uno conteniendo 50.000 muestras derecha. 0,25 probabilidad de seleccionar un pares de muestras negativas . Las muestras negativas de vídeo diferente la imagen de plantilla en y la búsqueda de imágenes, el resultado final de toda la posición de la figura pertenecen a las muestras negativas (es decir, el verdadero valor de -1). tamaño iterativo de cada generación, manipulación cantidades pequeñas (mini-lotes) es 8. tasa de aprendizaje de manera geométrica de recocido de 10 -2 reducido a 10 . 5 . Por último, se utiliza un bloque seguido de proceso de normalización (normalización lote) acelerar la convergencia detrás de cada capa lineal.

El seguimiento de la apariencia original del objeto es sólo una función de φ calculado una vez incorporado, y luego en forma de tramas subsiguientes de convolución subventanas se comparan. Por interpolación bicúbica, la puntuación puede ser agrandado de la Fig. 17 × 17 a 257 × 257, para obtener una orientación más precisa. En respuesta a los cambios en la escala, 01:03 en el presente documento en {-1; 0; 1} rango objetivo de búsqueda, y para adaptarse a los cambios en la escala por interpolación lineal (coeficiente de 0,65) .

3.3 tamaño del conjunto de datos

La Tabla 2 ilustra el tamaño de la red para la formación conjunto de datos doble en gran medida de cómo afecta al rendimiento. Este hallazgo sugiere que un mayor uso de conjunto de datos de vídeo puede mejorar aún más el rendimiento

3.4 El VOT15 resultados de referencia

Métodos Se hará Sección 2 (SiameseFC para siamés FullyConvolutional) como se describe en el desafío VOT 2015 edición [22] de la 62 mejor comparación tracker. La figura 3 solapamiento como media deseada de EAO rastreador ordenadas. A pesar de que es simple, pero nuestros métodos son mejores que la mayoría de los seguidores de los competidores, entre los mejores. Los resultados mostraron que la medida de similitud expresión de nuestra red siameses completa convolución única entrenado en un conjunto grande de datos es suficiente para lograr los mejores resultados. Creemos que mediante el uso de un método frecuentemente utilizado para rastrear la comunidad (por ejemplo, cambios de modelo, vuelta a la caja de contorno, puesta a punto, la memoria) para ampliar el seguimiento en línea de tuberías, se puede lograr un mayor rendimiento.

Aquí Insertar imagen Descripción
La Tabla 3 presenta los puntajes brutos y velocidad desafía 15 mejor rastreador. Nuestro método de baja complejidad, rápida velocidad de ejecución: La red sólo puede ser evaluado a 130 Hz, y la velocidad de funcionamiento de toda la pista es de 65 cuadros / seg, por lo que es, con mucho, el más rápido y el seguimiento del rendimiento solamente en tiempo real dispositivo. Nuestro rendimiento del sistema es particularmente interesante, sobre todo si, en comparación con otras funciones de red MDNet convolución y el rastreador SO-DLT. De hecho, tienen que llevar a cabo con el fin de hacer que la red SGD en línea adaptarse al vídeo actual, que limita severamente su aplicabilidad.

Aquí Insertar imagen Descripción
Tabla 1 excepto que en la arquitectura descrita, también medimos el rendimiento con una arquitectura ResNet [33] es el mismo como un simple seguidor. En este experimento, comenzamos a modelos pre-formados de la Red imagen, y luego ajustar los parámetros. Por siete "cuello de botella" y una convolución inicial bloque, la capa de red 22 en la trayectoria lineal más larga desde la entrada a la correlación cruzada. modelo más profunda mejora el rendimiento: en comparación con nuestra línea de base SiameseFC, solapando el aumento promedio esperado de 14%. Sin embargo, el sistema aún puede seguir blancos en tiempo real (25 cuadros / seg).

4 Trabajo relacionado

Varios estudios recientes han intentado entrenar redes neuronales recurrentes (RNNs) para resolver el problema de seguimiento. Gan et al. Para predecir la posición absoluta de destino en cada trama por [34] Formación RNN, kahou través et al [35] utilizando una formación RNN mecanismo micro seguimiento nota.

Denil et al. [36] utilizando un filtro de partículas para realizar un seguimiento del objeto, que tiene un filtro utilizando una distancia métrica para comparar el estudio actual el aspecto y la apariencia de la primera trama. Sin embargo, su distancia métrica con nosotros son muy diferentes. Ellos no son el objeto de la imagen de comparación entero, pero la distancia (el cuadro delimitador de la pequeña zona de objeto apenas visible) entre los cálculos de punto fijo.
..................

Otros autores también recomiendan el uso de seguimiento en el contexto de la red gemela. Tao et al propuso SINT (Ejemplo búsqueda de pista siamés instancia de búsqueda para el seguimiento), para entrenar a una red de reconocer siamés apariencia inicial del objeto coincide con la posición de la imagen candidato. En comparación con nuestros métodos, que no adoptan un marco de la búsqueda de imágenes para es completamente convolución. En cambio, en el tiempo de prueba, cuadros delimitadores de muestra uniformemente sobre círculos de radio variable como en Struck [3]. Además, incorporan flujo óptico y saltando regresión caja para mejorar los resultados. Con el fin de mejorar la velocidad de cálculo de su sistema, debe emplear región de interés (ROI) para examinar la puesta en común de manera eficiente muchos sub-ventanas superpuestas. a pesar de esta optimización, la velocidad general del sistema todavía está lejos de ser en tiempo real.

5. Conclusión

En este trabajo, la salida del método tradicional de aprendizaje en línea, y demostrar un método complementario, en la etapa en línea para centrarse en el aprendizaje de la potente capacidad de funciones. Diferente de su uso en problemas de clasificación, hemos demostrado que, para aplicaciones de seguimiento, la red profundidad total de convolución a un uso más eficiente de los datos disponibles. Refleja (a través de la implementación de espacio de búsqueda efectiva) en la prueba, sino que también se refleja en la formación (en el momento de la formación, cada ventana secundaria representar efectivamente una muestra útil, coste prácticamente ningún extra). Los experimentos muestran que la profundamente arraigada proporciona un rastreador en línea rica en características naturales, y muy fácil de lograr mejores resultados. Creemos que este enfoque complementa el método de seguimiento en línea más sofisticada, y esperamos trabajar exploración más a fondo de esta relación.

Aquí Insertar imagen Descripción

Liberadas dos artículos originales · ganado elogios 9 · visitas 166

Supongo que te gusta

Origin blog.csdn.net/qq_45171138/article/details/104315472
Recomendado
Clasificación