[Dharma Institute OpenVI] LongShortNet, una red de detección de objetivos de video basada en la percepción del flujo

Papeles y código

introducción de fondo

La tarea tradicional de detección de objetos de video (Detección de objetos de video, VOD) toma una porción de video como entrada, usa la información de tiempo del video para detectar objetos y finalmente genera los resultados de detección de cada cuadro de video. En comparación con la tarea de Detección de objetos de imagen (IOD), su ventaja es que puede usar la información de tiempo del video y es más robusta para escenas difíciles como el desenfoque de movimiento, la imagen fuera de foco, la oclusión y la pose del objeto. cambios. Sin embargo, tanto el VOD como el IOD tradicionales son detección fuera de línea (fuera de línea), es decir, solo se considera la precisión de detección del algoritmo y no se considera el retraso del algoritmo .

Para acercarse a la escena real, el documento ECCV 2020 "Towards Streaming Perception" [ 1 ] (obtuvo la Mención de Honor al Mejor Artículo) primero propuso la tarea Streaming Perception ( Percepción de transmisión ), que es una dirección de subdivisión de VOD, y propone el indicador de precisión promedio de transmisión (Streaming Average Precision, sAP), que mide la capacidad de detección en línea (online) del algoritmo, es decir, mide la precisión y la demora del algoritmo al mismo tiempo . Específicamente, como se muestra en la figura a continuación, el algoritmo de detección de objetivos fuera de línea tiene un efecto significativo en TTSe detecta el cuadro de video en el tiempo T y se obtiene el resultado de detección del automóvil, es decir, elnaranja.Debidoa que hay un cierto retraso en el procesamiento del algoritmo, el entorno real ya está enT + Latencia T + LatenciaT+En el tiempo de latencia , la posición real del automóvil también ha cambiado, es decir , el rectángulo rojo . Se puede ver que en las aplicaciones prácticas, cuando el algoritmo realiza la detección de objetivos, los cambios ambientales deben ser considerados al mismo tiempo, esto es exactamente lo que considera la detección en línea (como las tareas de Streaming Perception).El resultado de la detección en el momento T , el cuadro rectangular naranjayT + Latencia T+LatenciaT+El entorno real en el tiempo de latencia ,el marco rectangular rojo , puede tener una buena coincidencia .

Figura 1 Comparación de detección fuera de línea y detección en línea

Dificultades técnicas

Los primeros métodos como Streamer [ 1 ] y Adaptive Streamer [ 2 ] intentaron equilibrar la precisión y el retraso proponiendo algunas estrategias, pero estos métodos tienen poca precisión. El trabajo oral CVPR 2022 StreamYOLO [ 3 ] simplifica la tarea Streaming Perception en una tarea de predicción mediante la introducción de un potente detector de objetos en tiempo real YOLOX [ 4 ] .

Para comprender mejor por qué la introducción de detectores de objetivos en tiempo real puede simplificar la tarea de Streaming Perception, es necesario presentar los indicadores de evaluación de esta tarea. La precisión promedio de transmisión (sAP) se puede dividir en dos partes para que se entienda, entre las cuales "Precisión promedio" es consistente con la detección general, y "Transmisión" significa que el resultado de la predicción en un momento determinado será el mismo que el siguiente momento después el procesamiento del algoritmo se completa La coincidencia de tierra verdadera (Ground True, GT) y calcula la "Precisión promedio" correspondiente . Específicamente, como se muestra en la figura a continuación, para algoritmos que no son en tiempo real, I t I_{t}ItEl resultado de la predicción del momento es en el siguiente momento I t + 1 I_{t+1}It + 1Solo se puede obtener después de la llegada, como lo muestra la flecha verde en la mitad izquierda de la figura a continuación , por lo que el resultado de la predicción emparejado es I t + 2 I_{t+2}It + 2Tiempo GT, mientras I t + 1 I_{t+1}It + 1El GT en ese momento utilizará el resultado de la predicción anterior para el emparejamiento de forma predeterminada. De esta manera, el algoritmo "pierde" I t + 1 I_{t+1}It + 1Tiempo GT, por otro lado necesita predecir el más "lejos" I t + 2 I_{t+2}It + 2El entorno real en todo momento, por lo que el desafío para el algoritmo es mayor. Por el contrario, para los algoritmos en tiempo real, I t I_{t}ItEl resultado de la predicción del momento es en el siguiente momento I t + 1 I_{t+1}It + 1Se puede obtener antes de la llegada, como lo muestra la flecha verde en la mitad derecha de la figura a continuación , por lo que el resultado de la predicción emparejado es I t + 1 I_{t+1}It + 1En este caso, por un lado, el algoritmo no "perderá" GT en ningún momento y, por otro lado, solo necesita predecir el entorno real en el siguiente momento. Por lo tanto, la introducción de un algoritmo en tiempo real puede simplificar la tarea de Streaming Perception en una tarea de predicción para el entorno real del siguiente cuadro .

Figura 2 Diagrama esquemático de la evaluación de métodos en tiempo no real y métodos en tiempo real

Aunque StreamYOLO simplifica la tarea de Streaming Perception, solo utiliza la información de secuencia de tiempo breve del cuadro actual y el cuadro anterior como entrada, lo que dificulta la caracterización de algunos estados de movimiento complejos. Como se muestra en la Figura (a) a continuación, en el entorno real de conducción autónoma, a menudo ocurren los siguientes estados de movimiento y situaciones excepto por el movimiento lineal uniforme: 1) Movimiento no uniforme (como adelantar acelerando); 2) Movimiento no lineal ( como girar); 3) oclusión y objetivos pequeños.

Por lo tanto, la investigación en este documento se enfoca en explorar cómo introducir información de secuencia larga en la tarea Streaming Perception y cómo fusionar información de series de tiempo , y finalmente propone LongShortNet , como se muestra en la Figura (b) a continuación. Este documento se encuentra en algunos escenarios difíciles. Capaz de lograr una mayor precisión que StreamYOLO.

Figura 3 Diagrama esquemático del estado de movimiento especial
Ejemplos de estados de movimiento especiales Ejemplos de estados de movimiento especiales Ejemplos de estados de movimiento especiales

introducción al método

La estructura general de LongShortNet se muestra en la siguiente figura.Este método tiene las siguientes características:

Figura 4 Diagrama esquemático de LongShortNet y LSFM
  1. Se propone una estructura de red de doble rama y se introduce por primera vez información de secuencias a largo plazo en el campo de Streaming Perception. Incluyendo la ruta corta (Short Path) y la ruta larga (Long Path), donde la ruta corta se usa para extraer la información espacial del cuadro de video actual, mientras que la ruta larga usa cuadros históricos como entrada para extraer información de tiempo. Entre ellos, N.N.Nδ t \delta tδ t es dos parámetros ajustables,NNN se usa para controlar el número de marcos de historial,δ t \delta tδt se utiliza para controlar el paso de intervalo del marco histórico.
  2. Explore diferentes métodos de fusión de tiempo. Este artículo propone el módulo Long Short Fusion (LSFM), que explora 1) la fusión temprana y la fusión tardía; 2) diferentes asignaciones de importancia en el tiempo. Específicamente, hay cuatro módulos como se muestra en la Figura (b) anterior. Al mismo tiempo, se compara este trabajo con algunos módulos de atención existentes.
  3. Se propone un mecanismo de memoria intermedia multitrama. Este documento mejora el mecanismo de búfer del método StreamYOLO, haciéndolo adecuado para situaciones de múltiples cuadros, asegurando que el algoritmo mantenga el rendimiento en tiempo real y simplificando la tarea de percepción de transmisión como una tarea de predicción de tiempo.

Resultados experimentales

Este documento lleva a cabo experimentos de algoritmos basados ​​en el conjunto de datos públicos de la tarea Streaming Perception, Argoverse-HD [ 1 ] , y mantiene la misma división de conjuntos de entrenamiento/validación que StreamYOLO y otros trabajos. Este artículo también usa YOLOX como la estructura de red básica, y también usa redes pequeñas/medianas/grandes de tres tamaños, correspondientes a LongShortNet-S/LongShortNet-M/LongShortNet-L respectivamente.

SOTA vs.

En primer lugar, la comparación con el método SOTA actual se muestra en la siguiente tabla. LongShortNet logró un 37,1 % de SAP en la resolución convencional ((600, 960)), y logró un SAP en la resolución alta ((1200, 1920)). El 42,7 % de SAP supera la precisión actual de SOTA.

Tabla 1 Comparación con SOTA

experimento de ablación

Este artículo es para NNNδ t \delta tEl valor de δ t se utilizó para los experimentos de ablación y los resultados se muestran en la siguiente tabla, enN = 3 N=3norte=3δ t = 1 \delta t=1δt _=Cuando 1 , el modelo S/M/L puede lograr mejores resultados. Entre ellos, (1, 1) es equivalente a StreamYOLO.Se puede ver que la introducción de información de secuencia a largo plazo es útil para que el algoritmo prediga movimientos complejos, mejorando así la precisión final.

Tabla 2 Experimentos de ablación de N y delta

Este documento también realizó experimentos comparativos en cuatro módulos LSFM diferentes.Como se muestra en la siguiente tabla, LSFM-Lf-Dil logró la mayor precisión, lo que indica que la fusión tardía y el mantenimiento de un peso de canal más grande para el marco actual son más propicios para la información espaciotemporal. fusión.

Tabla 3 Experimentos de ablación del módulo LSFM

Por supuesto, el peso del canal del cuadro actual no es lo más grande posible. Como se muestra en la siguiente tabla, cuando el peso de expansión del canal (relación del canal de dilatación) se establece en 0,5, se obtiene el resultado óptimo y la precisión del el peso más grande disminuye en su lugar.

Tabla 4 Experimento de comparación del peso de expansión del canal

Además, este documento también compara LSFM con los métodos de atención existentes y agrega diferentes módulos de atención sobre la base de LSFM. Como se muestra en la siguiente tabla, el LSFM original logra los mejores resultados y tiene una ventaja en velocidad. Este artículo no niega el papel del mecanismo de atención, pero es posible que su papel deba reflejarse mejor en las condiciones de conjuntos de datos más grandes y entradas de series temporales más largas.

Tabla 5 Comparación de diferentes métodos de atención

Finalmente, este documento analiza la eficiencia de LongShortNet.Como se muestra en la siguiente tabla, en comparación con StreamYOLO, LongShortNet tiene un aumento casi insignificante en el tiempo de razonamiento y cálculo.

Tabla 6 Análisis de eficiencia

Portal modelo

Modelo consciente del flujo:

  • Modelo con reconocimiento de flujo LongShortNet: https://modelscope.cn/models/damo/cv_cspnet_video-object-detection_longshortnet/summary
  • Modelo StreamYOLO con reconocimiento de flujo: https://modelscope.cn/models/damo/cv_cspnet_video-object-detection_streamyolo/summary

Detectar modelos relacionados:

  • Modelo de detección de objetivos en tiempo real YOLOX: https://modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary
  • Modelo de detección de objetos de alta precisión DINO: https://modelscope.cn/models/damo/cv_swinl_image-object-detection_dino/summary
  • Modelo de detección de objetivos en tiempo real DAMO-YOLO: https://modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary
  • Modelo de detección de objetivos de la industria vertical: https://modelscope.cn/models?page=1&tasks=vision-detection-tracking%3Adomain-specific-object-detection&type=cv

Modelos relacionados con puntos clave:

  • Modelo de detección de punto clave humano 2D-HRNet: https://modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/summary
  • Modelo de detección de punto clave de cara 2D-MobileNet: https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary
  • Modelo de detección de puntos clave de mano 2D-HRNet: https://modelscope.cn/models/damo/cv_hrnetw18_hand-pose-keypoints_coco-wholebody/summary
  • Modelo de detección de punto clave humano 3D-HDFormer: https://modelscope.cn/models/damo/cv_hdformer_body-3d-keypoints_video/summary
  • Modelo de detección de punto clave humano 3D-TPNet: https://modelscope.cn/models/damo/cv_canonical_body-3d-keypoints_video/summary

Modelo de tráfico inteligente:

  • https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/resumen
  • https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/resumen
  • https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/resumen
  • https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
  • https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
  • https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
  • https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/resumen
  • https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
  • https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
  • https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
  • https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
  • https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
  • https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

Para obtener más modelos, consulte la página de inicio de ModelScope.

Herramientas de desarrollo de kits de ensayo

Kit de desarrollo de inspección visual comunitaria ModelScope AdaDet .

referencias

  • [1] M. Li y D. Ramanan, “Hacia la percepción del streaming”, en ECCV, 2020, vol. 12347, págs. 473–488.
  • [2] A. Ghosh, A. Nambi, A. Singh y et al., "Percepción de transmisión adaptativa mediante aprendizaje de refuerzo profundo", CoRR, vol. abs/2106.05665, 2021.
  • [3] J. Yang, S. Liu, Z. Li y et al., "Detección de objetos en tiempo real para la percepción de transmisión", en CVPR, 2022, págs. 5385–5395.
  • [4] Z. Ge, S. Liu, F. Wang y et al., "YOLOX: superando la serie YOLO en 2021", CoRR, vol. abs/2107.08430, 2021.

Supongo que te gusta

Origin blog.csdn.net/sunbaigui/article/details/130247377
Recomendado
Clasificación