Dirección en papel: https://arxiv.org/abs/2202.13514
Dirección en código: https://github.com/dyhBUPT/StrongSORT

Resumen

Los métodos de seguimiento de objetos múltiples (MOT) existentes se pueden clasificar en términos generales en paradigmas de seguimiento de detección y asociación de detección conjunta. Aunque este último ha llamado más la atención y ha mostrado un rendimiento comparable en relación con el primero, afirmamos que el paradigma de detección de seguimiento sigue siendo la mejor solución en términos de precisión de seguimiento. En este documento, revisamos el rastreador clásico DeepSORT y lo actualizamos desde varios aspectos, a saber, detección, incrustación y asociación. El rastreador resultante, llamado StrongSORT, implementa los nuevos HOTA e IDF1 en MOT17 y MOT20. También proponemos dos algoritmos ligeros y plug-and-play para refinar aún más los resultados del seguimiento. Primero, se propone un modelo de enlace sin apariencia (AFLink) para asociar trayectorias cortas en trayectorias completas. Hasta donde sabemos, este es el primer modelo de vinculación global sin información de apariencia. En segundo lugar, proponemos la interpolación suave gaussiana (GSI) para compensar las detecciones faltantes. GSI ya no ignora la información de movimiento como la interpolación lineal, sino que se basa en un algoritmo de regresión de proceso gaussiano y puede lograr un posicionamiento más preciso. Además, AFLink y GSI se pueden conectar a varios rastreadores con un costo computacional adicional insignificante (591,9 y 140,9 Hz en MOT17, respectivamente). Al integrar StrongSORT con los dos algoritmos, el rastreador final StrongSORT ocupa el primer lugar en MOT17 y MOT20 en términos de métricas HOTA e IDF1, y supera el segundo lugar por 1.3-2.2. El código se publicará pronto.

introducción

El seguimiento de múltiples objetos juega un papel crucial en la comprensión del video. Su objetivo es detectar y rastrear todos los objetos de una determinada clase cuadro por cuadro. En los últimos años, el paradigma de seguimiento por detección ha dominado la tarea de MOT. Realiza la detección por cuadro y formula el problema MOT como una tarea de asociación de datos. Gracias a los modelos de detección de objetos de alto rendimiento, los métodos de seguimiento basados en la detección se ven favorecidos por su excelente rendimiento. Sin embargo, estos métodos generalmente requieren múltiples componentes computacionales, como un modelo de incrustación y un detector. Para abordar este problema, varios enfoques recientes integran detectores y modelos integrados en un marco unificado. Además, el entrenamiento de detección e integración conjunta parece dar mejores resultados que el entrenamiento de detección e integración individual. Por lo tanto, estos métodos (seguidor conjunto) logran una precisión de seguimiento comparable o incluso mejor que los métodos de seguimiento de detección (seguidor único).

El éxito de los rastreadores conjuntos ha motivado a los investigadores a diseñar marcos de seguimiento unificados para varios componentes (por ejemplo, modelos de detección, movimiento, incrustación y asociación). Sin embargo, creemos que hay dos problemas en estos marcos conjuntos:

(1) Competencia entre diferentes componentes

(2) Datos limitados para el entrenamiento conjunto de estos componentes.

Aunque se han propuesto varias estrategias para abordar estos problemas, estos problemas aún reducen el límite superior de la precisión del seguimiento. En cambio, parece que se subestima el potencial de los rastreadores por sí solos.

En este documento, revisamos el clásico rastreador individual DeepSORT, uno de los primeros enfoques para aplicar modelos de aprendizaje profundo a la tarea MOT. Se afirma que el bajo rendimiento de DeepSORT en comparación con los métodos más avanzados se debe a su técnica obsoleta, no a su paradigma de seguimiento. Mostramos que simplemente equipar DeepSORT con varios componentes avanzados produce StrongSORT, que logra un nuevo SOTA en los puntos de referencia populares MOT17 y MOT20.

También proponemos dos algoritmos de seguimiento ligeros, plug-and-play, independientes del modelo y sin apariencia. Primero, para explotar mejor la información global, varios enfoques han propuesto asociar trayectorias cortas a trayectorias utilizando modelos de enlace global. Suelen generar trayectorias precisas pero incompletas y asociarlas con información global de forma normal. Si bien estos métodos mejoran significativamente el rendimiento del seguimiento, todos se basan en modelos computacionalmente intensivos, especialmente en las incrustaciones de apariencia. Por el contrario, proponemos un modelo de vinculación sin apariencia (AFLink) que utiliza solo información espacio-temporal para predecir si dos trayectorias de entrada pertenecen a la misma identificación.

En segundo lugar, la interpolación lineal se usa ampliamente para compensar las detecciones faltantes. Sin embargo, ignora la información de movimiento, lo que limita la precisión de la posición interpolada. Para resolver este problema, proponemos la interpolación suave gaussiana (GSI), que mejora la interpolación mediante el uso de un algoritmo de regresión de proceso gaussiano.

2. Trabajo relacionado

2.1 SDE y JDE

Los métodos MOT se pueden dividir en rastreadores individuales y rastreadores conjuntos. Los rastreadores individuales siguen el paradigma de detección-seguimiento, primero localizan objetos y luego los asocian con información de apariencia, movimiento, etc. Beneficiándose del rápido desarrollo de la detección de objetos, los rastreadores por sí solos han dominado la tarea de MOT durante muchos años. Recientemente, se han propuesto varios rastreadores conjuntos para entrenar conjuntamente la detección y algunos otros componentes, como modelos de movimiento, incrustación y asociación. El principal beneficio de estos rastreadores es su bajo costo computacional y rendimiento comparable. Sin embargo, afirmamos que los rastreadores conjuntos enfrentan dos problemas principales: competencia entre diferentes componentes y datos limitados para los componentes de entrenamiento conjunto. Estos dos problemas limitan el límite superior de la precisión del seguimiento. Por lo tanto, creemos que el paradigma de seguimiento de detección sigue siendo la mejor solución para el seguimiento del rendimiento.

Mientras tanto, varios estudios recientes renuncian a la información de apariencia y solo se basan en detectores de alto rendimiento e información de movimiento, logrando así una alta velocidad de ejecución y un rendimiento de última generación en el punto de referencia MOTChallenge. Sin embargo, creemos que esto se debe en parte a la simplicidad general de los patrones de movimiento en estos conjuntos de datos. En escenas más complejas, descartar características de apariencia conduce a una pobre robustez. En este documento, empleamos varias técnicas avanzadas para confirmar esto.

2.2 Conexiones globales en ITV

Para explotar información global rica, varios métodos utilizan modelos de enlace global para mejorar los resultados de seguimiento. Tienden a generar trayectorias precisas pero incompletas utilizando primero información espaciotemporal o de apariencia. Estas trayectorias luego se vinculan mediante la exploración de la información global fuera de línea. TNT diseñó un TrackletNet multiescala para medir la conectividad entre dos tracklets. Codifica la información de movimiento y apariencia en una red unificada mediante el uso de núcleos de convolución de múltiples escalas. TPM propone un proceso de coincidencia de tracklet-plano para empujar tracklets confusos a diferentes planos de tracklet, lo que ayuda a reducir la confusión en el paso de coincidencia de tracklet. ReMOT es una mejora de ReMOTS. Dado cualquier resultado de seguimiento, ReMOT segmenta trayectorias imperfectas en trayectorias y luego las fusiona con características de apariencia. GIAOTracker propone un algoritmo de vinculación global sofisticado mediante el uso de un modelo ResNet50-TP mejorado para codificar características de apariencia de tracklet y asociar tracklets con costos espaciales y temporales. Aunque estos métodos producen mejoras significativas, todos se basan en características de apariencia, lo que implica un alto costo computacional. De manera diferente, proponemos el modelo AFLink que utiliza solo la información de movimiento para predecir la confianza del enlace entre dos trayectorias. Al diseñar un marco de modelo y un proceso de capacitación adecuados, AFLink beneficia a varios rastreadores de última generación a un costo muy bajo. Hasta donde sabemos, este es el primer modelo de vinculación global liviano y sin apariencia para la tarea MOT.

2.3 Interpolación en ITV

La interpolación lineal se usa ampliamente para llenar los vacíos en las trayectorias recuperadas para la detección de eliminación. Aunque la interpolación lineal es simple y eficaz, ignora la información de movimiento, lo que limita la precisión de los cuadros delimitadores recuperados. Para abordar este problema, se han propuesto varias estrategias para utilizar de manera efectiva la información espacio-temporal. V-IOUTracker amplía IOUTracker recurriendo al seguimiento de un solo objeto en caso de detecciones perdidas. MAT emplea una estrategia de relleno de trayectoria de pseudo-observación circular para realizar un suavizado no lineal en trayectorias de interpolación lineal. Se requieren modelos adicionales de compensación de movimiento de cámara (CMC) y filtros Kalman para predecir las ubicaciones que faltan. MAATrack lo simplifica aplicando únicamente el modelo CMC. Todos estos métodos utilizan modelos adicionales, es decir, rastreador de un solo objeto, CMC, filtro de Kalman, a cambio de un aumento del rendimiento. En su lugar, proponemos modelar el movimiento no lineal basado en un algoritmo de regresión de proceso gaussiano (GPR). Sin componentes adicionales que consumen mucho tiempo, nuestro algoritmo GSI propuesto logra un buen compromiso entre precisión y eficiencia.

3 FuerteSORT

3.1 Clasificación profunda

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y cargarla directamente (img-mvYeVliY-1647263707660)(https://s3-us-west-2.amazonaws .com/secure.notion-static.com/fd826daa-06dc-4ad7-97b1-e7bcc1ae4ebe/Untitled.png)]

3.2 Clasificación profunda fuerte

Use un extractor de características más fuerte para reemplazar resnet18 para extraer características, use el conjunto de datos reid de la Universidad de Duke para el entrenamiento previo y use el promedio móvil exponencial para actualizar el estado de apariencia de la i-ésima pista en el t-ésimo cuadro.
$e_{i}^{t}=\alpha e_{i}^{t-1}+(1-\alpha) f_{i}^{t}$

Entre ellos, $F_t^i$ es la incrustación de apariencia de la detección coincidente actual, y α = 0.9 es el término de impulso. La estrategia de actualización de EMA no solo mejora la calidad de coincidencia, sino que también reduce el consumo de tiempo.

Para la rama de movimiento, empleamos ECC para la compensación de movimiento de la cámara. Además, los filtros de vainilla Kalman son inestables. Detección de baja calidad, que ignora la información sobre la escala del ruido de detección. Para resolver este problema, tomamos prestado el algoritmo de Kalman de la NSA, que propone una fórmula para calcular de forma adaptativa la covarianza del ruido.

$\widetilde{R}{k}=\left(1-c{k}\right) R_{k}$

donde $R_k$ es la covarianza del ruido de medición constante preestablecida, $c_k$ es la puntuación de confianza de detección para el estado k.

Al mismo tiempo, la distancia de la característica de apariencia y la información de movimiento se utilizan para hacer coincidir, y la matriz de costo C es el peso del modelo de apariencia A y el costo del modelo de movimiento Am

$C=\lambda A_{a}+(1-\lambda) A_{m}$

El factor de peso λ se establece en 0,98. Otro hallazgo interesante es que, si bien el algoritmo de cascada coincidente no es trivial en DeepSORT, limita el rendimiento a medida que los rastreadores se vuelven más potentes. La razón es que a medida que un rastreador se vuelve más poderoso, se vuelve más resistente a las asociaciones confusas. Por lo tanto, las restricciones previas adicionales limitarán la precisión del emparejamiento. Reemplazamos las cascadas coincidentes con asignaciones lineales globales de Vanolla.

4. Clasificación fuerte++

Los autores presentan un rastreador de tierra robusto en la Sección 3. En esta sección, presentamos dos algoritmos livianos, plug-and-play, independientes del modelo y sin apariencia, AFLink y GSI, para refinar aún más los resultados del seguimiento. Llamamos al último método StrongSORT++, que integra StrongSORT con estos dos algoritmos

4.1 Enlace DESACTIVADO

La correlación global de trayectorias se utiliza en varios algoritmos en busca de correlaciones de alta precisión. Sin embargo, por lo general se basan en componentes computacionalmente costosos y muchos hiperparámetros para el ajuste fino. Por ejemplo, el algoritmo de enlace en GIAOTracker [12] utiliza un ResNet50-TP modificado [16] para extraer características 3D de seguimiento y realizar asociaciones con distancias espaciales y temporales adicionales. Esto significa ajustar con precisión 6 hiperparámetros (3 umbrales y 3 factores de ponderación), lo que conduce a experimentos de ajuste adicionales y poca robustez. Además, encontramos que la dependencia excesiva de las características de apariencia es vulnerable al ruido. Con este fin, diseñamos un modelo sin apariencia, AFLink, que solo se basa en información espacio-temporal para predecir la conectividad entre dos pistas.

La Figura 3 muestra el marco de dos ramas del modelo AFLink. Toma dos trayectorias $Ti y$ Tj $T j$ como entrada, donde $T_{*}=\left\{f_{k}, x_{k}, y_{k}\right\}_{k =1}^{N}$ , por cuadro $f_k$ y las posiciones (xk, yk) de los N = 30 fotogramas más recientes. Si N es menor que 30, se realiza un relleno con ceros. Se utiliza un módulo temporal para extraer características convolucionando con un kernel de 7×1 a lo largo de la dimensión temporal. Luego, el módulo de fusión realiza una convolución de 1×3 para integrar información de diferentes dimensiones de características, a saber, f, x e y. Los dos mapas de características generados se agrupan por separado y se comprimen en vectores de características, y luego se concatenan, lo que contiene una rica información espacio-temporal. Finalmente, el MLP se utiliza para predecir la puntuación de confianza de la asociación. Tenga en cuenta que los módulos de tiempo y los módulos de fusión de las dos ramas no están vinculados.

[Error en la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo de enlace antirrobo, se recomienda guardar la imagen y cargarla directamente (img-zPCrBbpw-1647263641504) (https://s3-us-west-2. amazonaws.com/secure.notion-static.com/cc4befbe-c25d-41a9-991b-286a02e7f503/Sin título.png)]

El modelo AFLink toma la información espacio-temporal de dos pistas como entrada y luego predice su conectividad.

Durante el proceso de asociación, utilizamos restricciones espacio-temporales para filtrar pares de tracklets no razonables. A continuación, la conectividad global se resuelve como una tarea de asignación lineal [29] con las puntuaciones de conectividad previstas.

4.2 GSI

La interpolación se usa ampliamente para llenar espacios en las trayectorias debido a detecciones faltantes. La interpolación lineal es popular por su simplicidad. Sin embargo, su precisión es limitada porque no utiliza información de movimiento. Aunque se han propuesto varias estrategias para resolver este problema, generalmente introducen módulos adicionales que consumen mucho tiempo, como el rastreador de un solo objeto, el filtro de Kalman, ECC. De manera diferente, proponemos un algoritmo de interpolación ligero que emplea el proceso de regresión gaussiana [61] para simular el movimiento no lineal

Formulamos el modelo GSI para la i-ésima trayectoria de la siguiente manera

$p_{t}=f^{(i)}(t)+\epsilon$

donde t ∈ F es el marco, $p_t$ ∈ P es la variable de coordenadas de posición (es decir, x, y, w, h) en el marco t, $\epsilon$ ∼N(0, $σ^2$ ) Ruido gaussiano. $LS^{(i)}=\left\{t^{(i)}, p_{t dado seguimiento e$ interpolación $S^{(yo)} = {t^{(yo)}, pag_{t}^{(yo}}_{t = 1}$ , la longitud es L, la tarea de modelado de movimiento no lineal se resuelve ajustando la función f(i). Suponemos que obedece a un proceso gaussiano $f (yo) \in médico de cabecera (0, k (\cdot,\cdot))$ ，其中 $x^{\prime}) = \exp \left(-\frac{\left \|xx^{\principal}\derecho\|^{2}}{2 \lambda^{2}}\derecho)$ es el núcleo de la función de base radial. Con base en las propiedades del proceso gaussiano, dado un nuevo conjunto de marcos F∗, su posición suave P∗ se predice mediante la siguiente fórmula

$PP^{*}=K\left(F^{*}, F\right)\left(K(F , F)+\sigma^{2} I\right)^{-1} P$

donde $K (\cdot,\cdot)$ se basa en $k (\cdot,\cdot)$ función de covarianza. Además, el hiperparámetro $λ$ controla la suavidad de la trayectoria, que debe estar relacionada con su longitud. Simplemente lo diseñamos como una longitud adaptativa $función de l$ , como sigue

$\lambda=\tau * \log \left(\tau^{3} / l\right)$ $\tau$ se establece en 10.

La figura 4 ilustra la diferencia entre GSI y la interpolación lineal (LI). Los resultados de seguimiento sin procesar (naranja) generalmente incluyen fluctuaciones ruidosas, y la interpolación lineal LI (azul) ignora la información de movimiento. Nuestro GSI (rojo) aborda ambos problemas simultáneamente al suavizar toda la trayectoria con un factor de suavizado adaptativo.

[Error en la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo de enlace antirrobo, se recomienda guardar la imagen y cargarla directamente (img-8KkLua2b-1647263641504) (https://s3-us-west-2. amazonaws.com/secure.notion-static.com/89556b88-977a-4df6-90f1-0b24ffae2d16/Sin título.png)]

5 experimentos

5.1 Conjuntos de datos y métricas de evaluación

detección privada

MOT17, MOT20, use Dukemtmc para entrenar la red de reidentificación y entrene el detector en los conjuntos de medio entrenamiento CrowdHuman y MOT17. Agregue cityperson y ethz para realizar pruebas.

El rendimiento del seguimiento se evalúa mediante métricas MOTA, ID, IDF1, HOTA, AssA, DetA y FPS [2, 33, 44]. MOTA se calcula en función de FP, FN e ID, centrándose más en el rendimiento de detección. Por el contrario, IDF1 mide mejor la consistencia de la coincidencia de ID [23]. HOTA es una combinación explícita de la puntuación de detección DetA y la puntuación de asociación AssA, que equilibra la efectividad de realizar una detección y asociación precisas en una métrica unificada. Además, evalúa múltiples valores de similitud de detección diferentes (0,05 a 0,95 con un intervalo de 0,05) entre las predicciones y los cuadros delimitadores de GT en lugar de establecer un valor único (es decir, 0,5) como MOTA e IDF1.

5.2 Detalles experimentales

Para la detección, adoptamos YOLOX-X [17] preentrenado en COCO [31] como detector para mejorar la precisión temporal. El proceso de entrenamiento es similar al de [73]. En inferencia, la supresión no máxima (NMS) tiene un umbral de 0,8 y la confianza de detección tiene un umbral de 0,6. Para StrongSORT, el umbral de distancia de características es 0,45, el modo de deformación de ECC es cinético euclidiano, el término de impulso α en EMA es 0,9 y el factor de ponderación λ del costo de aparición es 0,98. Para GSI, el espacio máximo permitido para la interpolación es de 20 fotogramas y el hiperparámetro τ es de 10

Para AFLink, el módulo temporal consta de cuatro capas convolucionales con núcleos 7×1 y canales de salida {32, 64, 128, 256}. Cada convolución es seguida por una capa BN y una capa de activación ReLU. El módulo de fusión consta de una convolución de 1×3, un BN y un ReLU. No cambia el número de canales. El clasificador es un MLP con dos capas completamente conectadas y una capa ReLU insertada en él. Los datos de entrenamiento se generan cortando las trayectorias anotadas en trayectorias con ruido espaciotemporal aleatorio en una relación de muestra positiva a negativa de 1:3. Usamos a Adam como optimizador, la pérdida de entropía cruzada como función objetivo y lo entrenamos durante 20 épocas usando un programa de tasa de aprendizaje de recocido de coseno. Todo el proceso de entrenamiento solo toma más de 10 segundos. En la inferencia, se utiliza un umbral de distancia temporal de 30 fotogramas y un umbral de distancia espacial de 75 píxeles para filtrar pares asociados no razonables. Finalmente, se considera la asociación si su puntuación de predicción es superior a 0,95. Todos los experimentos se realizaron en una máquina servidor con un solo V100.

5.3 Experimento de ablación

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y cargarla directamente (img-b8NpZbzt-1647263641505)(https://s3-us-west-2.amazonaws .com/secure.notion - static.com/f82a07f4-65ea-4211-bde9-012c835cbf76/Sin título.png)]

AFLink y GSI se aplican en seis rastreadores diferentes, a saber, tres versiones de StrongSORT y tres rastreadores de última generación (CenterTrack, TransTrack y FairMOT). Sus resultados se muestran en la Tabla 2. La primera fila de resultados para cada rastreador es el rendimiento bruto. La aplicación de AFLink (segunda fila) trae diferentes grados de mejora para diferentes rastreadores. Específicamente, los rastreadores más pobres tienden a beneficiarse más de AFLink debido a que faltan más asociaciones. En concreto, el IDF1 de CenterTrack mejora en 3,7. La tercera fila de resultados para cada rastreador demuestra la eficacia de GSI tanto en la detección como en la asociación. A diferencia de AFLink, GSI funciona mejor con rastreadores más potentes. Se confundirá por la gran cantidad de asociaciones falsas en rastreadores deficientes. La Tabla 3 compara nuestro GSI con LI. Los resultados muestran que GSI produce un mejor rendimiento con un pequeño costo computacional adicional.

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo anti-leeching, se recomienda guardar la imagen y cargarla directamente (img-CNfIS0Z6-1647263641505)(https://s3-us-west-2.amazonaws .com/secure.notion-static.com/6de9904b-f55b-4177-8c2c-b82e36fbb12e/Untitled.png)]

[Falló la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo de enlace antirrobo, se recomienda guardar la imagen y cargarla directamente (img-5eJc93wA-1647263641505) (https://s3-us-west-2. amazonaws.com/secure.notion - static.com/ed88cc23-a56c-464b-9e48-24b7c6302bda/Untitled.png)]

5.4 Resultados de la ITV

[Error en la transferencia de la imagen del enlace externo, el sitio de origen puede tener un mecanismo de enlace antirrobo, se recomienda guardar la imagen y cargarla directamente (img-C9BYrqpE-1647263641506) (https://s3-us-west-2. amazonaws.com/secure.notion - static.com/f1cfba9b-4627-4ce8-a6c1-c8242b5b2c56/Sin título.png)]
inserte la descripción de la imagen aquí

5.5 Limitaciones

StrongSORT y StrongSORT++ todavía tienen varias limitaciones. La principal preocupación es que funcionan relativamente lentos en comparación con el rastreador de asociación y varios rastreadores de separación sin apariencia. Se justifica una mayor investigación sobre la mejora de la eficiencia computacional. Además, aunque nuestro método ocupa el primer lugar en las métricas IDF1 y HOTA, tiene un MOTA ligeramente más bajo, principalmente debido al alto umbral de puntajes de detección que resulta en muchas detecciones faltantes. Creemos que una estrategia de umbral bien diseñada o un algoritmo de asociación puede ayudar. En cuanto a AFLink, si bien hace un buen trabajo recuperando las asociaciones perdidas, es impotente frente al problema de las asociaciones incorrectas. Específicamente, AFLink no puede dividir trayectorias mixtas de ID en trayectorias precisas.

referencias

StrongSORT: Haz que DeepSORT vuelva a ser grandioso

Ordenar fuerte