[Notas del estudio de seguimiento de objetivos múltiples] Comparación de algoritmos MOT basados en transformadores (TransTrack, TrackFormer, TransCenter, TransMOT, MOTR)

2022.3.20 Se actualizó parte del contenido : debido al reciente enfoque en TrackFormer, se actualizaron los tres diagramas de flujo de TrackFormer y la expresión de la función de pérdida (la expresión anterior no era muy clara). El resto de los métodos son similares a este proceso. El llamado mecanismo de clave de consulta consiste en utilizar la incrustación para representar el objetivo y utilizarlo como entrada de Transformer para aprender la relación entre ellos.


Recientemente, he visto algunos métodos MOT basados ​​en Transformer y los resumiré aquí. Se han leído un total de cinco métodos sobre el tema, el orden cronológico de estos métodos es el siguiente:

TransTrack(20.12)------TrackFormer(21.1)-----TransCenter(21.3)-----TransMOT(21.4)-----MOTR(21.5)

Estos cinco métodos no son todos similares y se pueden dividir en tres categorías: TransMOT es una categoría separada porque utiliza un transformador gráfico. TransCenter también es una categoría separada porque usa el punto central (mapa de calor de aprendizaje) en lugar de bbox. Las notas para los dos artículos son:

TransCenter
TransMOT

Además de las notas MOTR, consulte: MOTR

TransMOT critica principalmente que el Transformer tradicional no modela de manera efectiva la relación espacio-tiempo (mientras que el gráfico puede modelar directamente la relación espacial), y TransCenter critica principalmente el método basado en bbox en lugar del mapa de calor, lo que dificultará el manejo de la oclusión.

Concéntrese en la comparación de TransTrack, TrackFormer y MOTR.


Primero, se describirá el flujo de trabajo general de TransTrack y TrackFormer en orden cronológico. Se espera comparar estos cinco métodos en términos de ideas, procesamiento de eventos especiales (oclusión, repetición, entrada y salida) y configuración de la función de pérdida.

  \espacio 

1. El flujo general de TransTrack

inserte la descripción de la imagen aquí
  \espacio 
En este artículo , el mecanismo de clave de consulta se describe sistemáticamente . La consulta es esencialmente el representante del destino, que contiene la información del destino. En el trabajo anterior, la clave representaba el área de la imagen, pero la consulta en realidad es más importante.

Este artículo divide la consulta en consulta de objeto y consulta de seguimiento:

Hay dos juegos de llaves. Una consulta de destino que incluye consultas de objetos, aprendida del detector basado en transformador (DETR) existente. El otro incluye el aprendizaje de características de destino a partir de marcos existentes. Para distinguir, este conjunto se denomina "consulta de seguimiento".

El primer conjunto (consultas de objetos) proporciona información sobre los objetos entrantes, y las consultas de la segunda pista proporcionan información sobre los objetos coincidentes para mantener la pista.

Los bboxes de los dos conjuntos se predicen por separado y, a continuación, se utiliza una coincidencia de IOU simple para generar el conjunto objetivo final.
  \espacio 
El flujo de trabajo de TransTrack es aproximadamente:
inserte la descripción de la imagen aquí

  \espacio 
TransTrack toma una consulta de objeto como entrada para la detección. Por otro lado, TransTrack utiliza las características de los objetos detectados previamente para formar otra consulta de seguimiento para asociar objetos en el siguiente cuadro.

De esta forma, TransTrack genera un conjunto de dos bboxes paralelos, denominados "cajas de detección" y "cajas de seguimiento". La siguiente tarea es hacer coincidir las dos cajas una por una, utilizando el algoritmo húngaro (algoritmo KM), y el costo es el IOU para generar un conjunto de cajas ordenadas final.
  \espacio 
Específicamente,
el codificador acepta mapas de características de dos marcos adyacentes como entrada. Para evitar cálculos repetidos, el mapa del cuadro actual se conserva hasta el cuadro siguiente. El mapa de características generado por el codificador se usa como las claves de los dos decodificadores.

Se utilizan dos decodificadores paralelos, uno para la detección de objetivos y otro para la propagación de objetivos. El decodificador responsable de la detección de objetivos toma la consulta del objeto aprendido como entrada (por eso se llama aprendido, porque la consulta del objeto de entrada primero pasa por la autoatención) y luego predice el cuadro detectado.

Otro decodificador toma la característica de destino del cuadro anterior como entrada, llamada consulta de seguimiento, y luego predice la posición del objetivo correspondiente en este cuadro, y el bbox generado se denomina cuadro de seguimiento.

En la tarea de propagación del objetivo, debido a que se heredan las características del objetivo anterior, se puede ver la información de la apariencia anterior y la información de la posición, y se puede lograr una mejor predicción.

  \espacio 
Manejo de eventos especiales:

Para una nueva entrada: use la consulta de objetos para detectar y, finalmente, el cuadro de detección no coincidente se considera como una nueva pista
Para la salida: de manera similar, el cuadro de pista no coincidente se designa como estado inactivo y se descartará después de una cierta vida útil.
Para la oclusión: los autores tratan la oclusión y la desaparición a corto plazo como eventos iguales.
Para detección de duplicados: no.
  \espacio 

función de pérdida

La función de pérdida de TransTrack es relativamente simple, que es una suma ponderada de la pérdida de clasificación, la pérdida L1 y la pérdida IOU generalizada. Es lo mismo que MOTR calculando la función de pérdida de un solo cuadro:

inserte la descripción de la imagen aquí

  \espacio 
  \espacio 

2. El proceso general de TrackFormer

inserte la descripción de la imagen aquí
  \espacio 

Cómo funciona TrackFormer:

Cada consulta representa un objetivo y sigue este objetivo de forma autorregresiva en el espacio y el tiempo. Cuando llega un nuevo objetivo, se detecta mediante consultas de objetos estáticos y luego se convierte en consultas de seguimiento posteriores. Por lo tanto, hay dos tipos de consultas:

  1. Consultas de objetos estáticos, deje que el modelo inicialice la trayectoria en cualquier cuadro
  2. Consultas de seguimiento autorregresivas, responsables del seguimiento de objetivos entre fotogramas

En cada cuadro, el codificador-decodificador procesa las características y las consultas de seguimiento y objeto de la imagen de entrada, y genera el bbox con la identificación asignada.

TrackFormer se divide aproximadamente en estos cuatro pasos:

  1. Extracción de características a nivel de cuadro a través de CNN
  2. Codificar características a través de la autoatención en Encoder
  3. Decodificar consultas a través de la atención propia y cruzada en Decoder
  4. Después de MLP, las consultas se asignan a cuadros delimitadores y clases (debe ser ID)

  \espacio 

Describa las consultas de objetos y las consultas de seguimiento, respectivamente. La estructura Codificador-Decodificador es la siguiente:

inserte la descripción de la imagen aquí
  \espacio 
I. Consultas de objetos
Los nuevos objetos que aparecen en la escena son de número fijo ( N objeto N_{objeto}norteobjeto _ _ _ _ _) es detectado por las incrustaciones de salida, cada incrustación de salida utiliza consultas de objetos estáticos y aprendidos para la codificación de objetos.

Cada consulta de objeto aprende a predecir objetos con propiedades espaciales específicas, como caja y ubicación.

La autoatención de Decoder se basa en la codificación de objetivos (la línea más a la derecha conectada a las consultas de objetos en la figura) para evitar la detección repetida y razonar sobre las relaciones espaciales y de categoría de los objetivos.

ii.Consultas de seguimiento
El papel de las consultas de seguimiento: lograr iteraciones de seguimiento de fotograma a fotograma.

Las consultas de seguimiento siguen objetos en una secuencia de video, con información de identificación de objetos, y se adaptan a posiciones cambiantes de manera autorregresiva.

Inicialice una consulta de seguimiento para cada nuevo objetivo, junto con la incrustación de salida correspondiente del cuadro anterior.

El Transformador presta atención a las características del marco actual, y el decodificador consulta continuamente actualiza la identificación y la posición del objetivo.
La autoatención basada en dos tipos de consulta (pista y objeto) en el decodificador puede evitar la detección repetida.

En resumen, TrackFormer implementa la atención implícita de múltiples cuadros (en realidad porque la consulta de seguimiento transfiere información de forma autorregresiva)

  \espacio 
Manejo de eventos especiales:

Para una nueva entrada: Igual que TransTrack, también use la consulta de objetos para detectar

Para salir: si la confianza de clasificación es demasiado baja, o el valor de IOU después del cálculo de NMS es demasiado bajo, se considera inactivo. Después de que se activa la condición de eliminación, antes de que caduque la vida útil, la consulta de seguimiento se considera inactiva, pero si hay una confianza de clasificación superior a σ track − reid \sigma_{track-reid}pagt r a c k - r mi yo re, será revivido.

Para la oclusión: el autor dijo que la integración de la información espacial en la consulta de seguimiento puede solucionar la oclusión a corto plazo. TrackFormer no requiere capacitación adicional de la red Re-ID, lo que garantiza la integridad de todo el mecanismo.

Para la detección de duplicados: evite la detección de duplicados mediante la codificación de objetos.

Diagrama de flujo del algoritmo general:
inserte la descripción de la imagen aquí
diagrama de flujo de propagación hacia adelante durante el entrenamiento (importante):
inserte la descripción de la imagen aquí
diagrama de flujo del algoritmo de coincidencia del proceso de inferencia (importante):
inserte la descripción de la imagen aquí
  \space 
función de pérdida

La función de pérdida de TrackFormer es un poco más complicada. Esencialmente, para la relación (conjunto de diferencias, conjunto de intersección) de conjuntos de ID de cuadros adyacentes, se divide en varias situaciones y se utilizan diferentes métodos de procesamiento para diferentes situaciones.

En concreto, adopta una estrategia de emparejamiento bilateral .

El mapeo de GT al conjunto conjunto de consulta de objeto y seguimiento π \piπ se obtiene a partir de la identificación de la pista o el costo en función de la similitud de bbox y la categoría de destino.

asumiendo en ttEl GT de la identificación de la pista del cuadro t esK t K_tkt, entonces K t K_tktes kkUn subconjunto de K (el todo). Cada detección en el primer paso se asigna al GTtrack id correspondientekkk _ Las incrustaciones de salida correspondientes, es decir, las consultas de seguimiento, naturalmente llevan la información de identificación para el siguiente cuadro.

ttt yt − 1 t-1tUn GT de 1 describeN pista N_{pista}norteseguimiento _ _ _ _Asignación dura de consulta de seguimiento .

En términos humanos, si se utilizan dos cuadros adyacentes como entrada para el entrenamiento, es recomendable recordar que la trayectoria establecida en el cuadro t-ésimo es K t ⊂ K K_t \subset KktK , el id del resultado de detección del cuadro anterior es el cuadro anteriorK t − 1 ⊂ K ​ K_{t − 1} \subset Kkt 1En K , lleva información de identificación como la consulta de seguimiento del cuadro actual, si elK t K_tktSi todavía hay una identificación correspondiente en la identificación, entonces el GT de la identificación se asigna a la consulta de seguimiento; de lo contrario, se proporciona la clase de fondo para indicar que el objetivo no ha aparecido, y las identificaciones restantes sin asignar se asignan a la consulta de objeto. de acuerdo con la idea de DETR (MOTR también se usó la pérdida original de DETR).

inserte la descripción de la imagen aquí

En términos humanos , primero calcule la mejor combinación con el costo más bajo de acuerdo con la estrategia asignada por DETR: la
inserte la descripción de la imagen aquí
fórmula anterior significa: luchar por la distancia más corta entre los dos conjuntos de un cierto arreglo st.

en:

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Pérdida final: Sumando las pérdidas de todos los objetos y consultas:
inserte la descripción de la imagen aquí
donde:
inserte la descripción de la imagen aquí
para la pérdida de cada consulta:

Permítanme hablar sobre las condiciones para ser clasificado como clase de fondo:
según el algoritmo de asignación anterior, no pertenece a la identificación de la pista, ni pertenece a π\piEn el mapa π , se considera como la clase de fondo.

Para en π \piLa consulta y loss en π constan de dos partes: bbox y class. class es la pérdida logarítmica, el logaritmo negativo se toma como confianza, bbox es la pérdida del cuadro delimitador, el método de cálculo es el mismo queC box C_{box}Ccaja _ _mismo.

π \ pi¿ Qué es exactamente pi ? σ ^ \hat{\sigma}
obtenido por la mejor coincidenciapag^ determina la asignación, es decir, la asignación de GT a las consultas. Esta asignación (mapeo) esπ \piπ , la consulta en este mapeo, calcula la pérdida según la clase y el bbox. Si no, sólo hay pérdida de categoría.

Recientemente escribí una explicación de la función de pérdida de TrackFormer en medio del proyecto, que creo que es más concisa que la anterior:
inserte la descripción de la imagen aquí

  \espacio 

3. Comparación final

3.1 Idea básica

nombre la idea basica Estructura codificador-decodificador
TransTrack El mecanismo de clave de consulta combina las características de dos marcos adyacentes. La consulta de objeto se utiliza para aprender a detectar nuevos objetos, y la consulta de seguimiento es responsable de mantener el seguimiento. Uno de los dos decodificadores es responsable de la detección y genera un marco de detección, el otro es responsable de la propagación del objetivo y genera un marco de seguimiento. Las dos casillas se obtienen por coincidencia de IoU. decodificador dual
TrackFormer El mecanismo de clave de consulta, la consulta de objeto detecta nuevos objetivos, y la consulta de seguimiento es responsable de rastrear el objetivo entre fotogramas (igual que TransTrack).En el decodificador, las consultas de seguimiento y las consultas de objeto se concatenan y se ingresan, y el MLP directamente mapea la salida del decodificador en clases y cajas. decodificador único, con codificación de posición y codificación de objetos (codificación de objetos)
transcentro Estructura de red siamesa, dos marcos adyacentes se utilizan como entrada. Detecte todo el camino y rastree todo el camino, genere características de múltiples escalas y combínelas, e ingrese tres ramas para realizar tres tareas: predecir el mapa de calor central, predecir el tamaño de la caja y predecir el desplazamiento. transformador siamés
TransMOT Se utiliza un gráfico ponderado disperso para representar la relación espacial entre los objetivos. La recopilación de los gráficos de los últimos fotogramas ingresa al codificador para conocer la relación espacial en el dominio del tiempo; el gráfico del fotograma actual ingresa al decodificador para conocer la relación espacial. relación, y finalmente genera una matriz de asignación para el emparejamiento. Transformador gráfico
MOTR El mecanismo de clave de consulta genera funciones a través de la red troncal CNN y el Codificador, e ingresa al Decodificador junto con la consulta vacía. El decodificador emite una consulta de seguimiento original, que la red QIM aprende para detectar nuevos objetivos y excluir objetivos fuera de campo.A través del TAN, la predicción de trayectoria del cuadro anterior se fusiona para generar una consulta de seguimiento (que lleva el objetivo información de este marco), y se transmite al siguiente marco Codificador-decodificador normal

3.2 procesamiento de eventos especiales

nombre nueva entrada abandonar bloquear detección de duplicados
TransTrack Use la consulta de objetos para detectar, y el cuadro de detección que no coincide al final se considera como una nueva trayectoria El cuadro de seguimiento que no coincide se designa como estado inactivo y se abandonará después de una cierta vida útil. salida estimada no dijo nada
TrackFormer detección de consultas de objetos La confianza de clasificación es baja o el IoU es bajo y la recuperación supera el umbral La integración de información espacial en la consulta de seguimiento puede solucionar la oclusión a corto plazo Evite la detección duplicada a través de la forma de codificación de destino
transcentro Detectado a través de la rama de detección, si no hay coincidencia con la pista existente, se considera una nueva pista Ninguna coincidencia se considera dormida (igual que TransTrack) Para aquellas que se consideren trayectorias nuevas, se compararán con las trayectorias en el estado de suspensión, utilizando una red Re-ID adicional. Usar un mapa de calor es resolver la detección repetida
TransMOT Procese nuevas trayectorias con una fuente virtual, agregando una a la dimensión del número de destino del tensor de salida de codificadores para el aprendizaje Use un nodo receptor virtual para conectarse a todos los nodos, manejar la salida y la oclusión Igual que la izquierda Para una posible detección de duplicados, para todos los candidatos no coincidentes, se compara con todos los objetos asociados. Todavía calcule el grado de coincidencia de bbox. De hecho, los que tienen un alto grado de superposición deben eliminarse.
MOTR Proceso con consulta (esencialmente lo mismo que TransTrack y TrackFormer) Las clasificaciones con confianza baja se consideran abandonadas no dijo nada El autor cree que empalmar consultas de detección y consultas de seguimiento puede reducir la detección de objetivos rastreados.

3.3 Función de pérdida

nombre Composición de la función de pérdida
TransTrack Suma ponderada de pérdida de clasificación, pérdida L1, pérdida IoU generalizada
TrackFormer Encuentre el mapeo de coincidencia óptimo entre consultas y GT, y calcule la pérdida para cada consulta, que consiste en pérdida de clasificación y pérdida de bbox
transcentro La pérdida se define para los mapas de calor. Cuando el punto de predicción coincide con el punto central GT, la pérdida de tamaño y track se calcula en base a la norma 1. Además, existe una pérdida de borde, que se calcula en función del punto central GT y el tamaño previsto. La pérdida final es la suma ponderada de estos cuatro.
TransMOT Su pérdida no entendió T_T, que probablemente sea similar a la entropía cruzada.
MOTR Cuando se entrena MOTR, se usa todo el videoclip como entrada y se propone CAL (Pérdida promedio colectiva), que es la relación entre la suma de los resultados de predicción de detección y seguimiento de cada cuadro y la pérdida de GT a la suma de GT de cada cuadro. La pérdida de cada trama consiste en una suma ponderada de pérdida de clasificación, pérdida L1 y pérdida IoU generalizada.

Posdata
Todavía hay espacio para mejorar De hecho, la salida y la oclusión generalmente se pueden manejar juntas. Se debe resumir una diferencia más entre los métodos Re-ID.

Guess you like

Origin blog.csdn.net/wjpwjpwjp0831/article/details/121392440