[Localización de la acción espacio-temporal (1)] Comprensión de la localización de la acción espacio-temporal (1)

Buen blog y marcos recomendados.

MultiSports de código abierto de la Universidad de Nanjing: un conjunto de datos detallados de detección de acciones espacio-temporales de varias personas para escenas deportivas...

Lectura de artículo recomendada, comprensión del video (3) Localización de acción espacio-temporal Localización de acción espacio-temporal

definición de tarea

Detección de acción espacio-temporal: ingrese un video sin recortar. No solo necesita identificar el tiempo de inicio y finalización de las acciones en el video y las categorías correspondientes , sino que también debe marcarlas con un cuadro delimitador dentro del rango espacial. La posición espacial del personaje .

Insertar descripción de la imagen aquí
La detección de acciones espacio-temporales tiene como objetivo localizar instancias de acción tanto en el espacio como en el tiempo , y reconocer las etiquetas de las acciones . En el entorno totalmente supervisado de esta tarea, el límite temporal de las instancias de acción a nivel de video , el cuadro delimitador espacial de las acciones a nivel de marco , y las etiquetas de acción se proporcionan durante el entrenamiento y deben detectarse durante la inferencia. El inicio y el final de la acción “salto de longitud” se detectan en el dominio temporal. Además, el cuadro delimitador del actor que realiza la acción se detecta en cada cuadro en el dominio espacial.
El propósito de la detección de acciones espaciotemporales es localizar instancias de acciones en el espacio y el tiempo e identificar etiquetas de acciones. En el entorno totalmente supervisado de esta tarea, los límites temporales de las instancias de acción a nivel de video, los cuadros delimitadores espaciales de las acciones a nivel de cuadro y las etiquetas de acción se proporcionan durante el entrenamiento y deben detectarse durante la inferencia. El inicio y el final de la acción del "salto de longitud" se detectan en el dominio del tiempo. Y el cuadro delimitador del actor que realiza la acción se detecta en cada cuadro del dominio espacial.

dificultad de la tarea

Modelado espaciotemporal: uno de los desafíos clave en esta área es cómo modelar la información espaciotemporal en videos. Generalmente, el modelado espaciotemporal implica modelar movimientos, poses y escenas en videos para capturar con precisión las características espaciotemporales de las acciones.

  • La tarea de localización de acciones enfrenta desafíos importantes, por ejemplo , variabilidad dentro de la clase, fondo desordenado, datos de video de baja calidad, oclusión, cambios en el punto de vista

conjunto de datos

Conjuntos de datos en el campo de la comprensión de videos (incluido S-TAL)

Los conjuntos de datos existentes se dividen principalmente en dos categorías principales:

  • Conjuntos de datos densamente anotados (25FPS) representados por UCF101-24 y JHMDB. Cada video en este tipo de conjunto de datos tiene solo una acción. La mayoría de los videos son personas solteras que realizan algunas acciones repetitivas con semántica simple. Las categorías de acción están altamente relacionadas con el fondo. .

  • Los conjuntos de datos de anotación dispersa (1FPS) representados por AVA, debido a la anotación escasa, no dan límites de acción claros. Los métodos existentes se parecen más al reconocimiento de acciones a nivel de instancia, lo que debilita el posicionamiento temporal; al mismo tiempo, las categorías de acciones son átomos diarios. La velocidad de movimiento es lenta, la deformación es pequeña y la dificultad de seguimiento es baja.La clasificación no requiere modelado ni razonamiento complejos de personas, objetos y entornos.

Acciones visuales atómicas : Las "acciones atómicas" se refieren a las acciones unitarias básicas y más pequeñas en el conjunto de datos de acciones. Estas acciones suelen ser las unidades identificables más pequeñas en las tareas de reconocimiento de acciones.
Las "acciones atómicas" se refieren a fragmentos de acciones en el conjunto de datos de acciones que son básicos, comunes en la vida diaria, de corta duración, de deformación pequeña, de velocidad lenta y difíciles de rastrear. Estas acciones atómicas se utilizan a menudo en conjuntos de datos débilmente etiquetados porque son relativamente fáciles de identificar y clasificar y no requieren modelos ni razonamientos complejos de personas, objetos y entornos.

  • AVA está diseñado para la detección de acciones espacio-temporales y consta de 437 videos donde cada video es un segmento de 15 minutos tomado de una película. Cada persona que aparece en un video de prueba debe ser detectada en cada cuadro y las acciones multietiqueta de la persona detectada. debe predecirse correctamente. El espacio de etiquetas de acción contiene 80 clases de acción atómica, pero a menudo los resultados se informan sobre las 60 clases más frecuentes. AVA está diseñado para la detección de acciones espaciotemporales y consta de 437 videos, cada video está tomado de una película de 15 minutos. segmento. Cada persona que aparece en el vídeo de prueba debe ser detectada en cada cuadro y las acciones de múltiples etiquetas de las personas detectadas deben predecirse correctamente. El espacio de etiquetas de operación contiene 80 clases de operaciones atómicas, pero los resultados generalmente informan las 60 clases más comunes.

Estado de la tarea

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

Indicadores de evaluación

  • frame-AP: frame-AP mide el área bajo la curva de recuperación de precisión de las detecciones para cada cuadro. Mide el área bajo la curva de recuperación de precisión de las detecciones para cada cuadro. Una detección es correcta si la intersección-sobreunión con la verdad fundamental en ese marco es mayor que un umbral y la etiqueta de acción se predice correctamente . Si la intersección-sobreunión con la verdad fundamental en ese marco es mayor que un umbral y la etiqueta de acción se predice correctamente, entonces la detección es correcta.
  • video-AP: video-AP mide el área bajo la curva de recuperación de precisión de las predicciones de los tubos de acción. Un tubo es correcto si la media por cuadro de intersección sobre unión con la verdad fundamental en todos los cuadros del video es mayor que un umbral y la etiqueta de acción se predice correctamente.

Las "predicciones de tubos de acción" se refieren a una serie de regiones temporales y espaciales donde se conectan las instancias de acción detectadas en un vídeo . Esta área representa el tiempo de inicio y finalización de la acción y la ubicación espacial donde ocurre la acción. "video-AP mide el área bajo la curva de recuperación de precisión de las predicciones de los tubos de acción" se refiere a evaluar el rendimiento del modelo calculando la relación de intersección entre el área predicha y el área real para todas las instancias de acción en el video. En cada fotograma del vídeo, la relación de intersección promedio del área de acción prevista y el área de acción real debe ser mayor que un umbral establecido antes de que se considere el área de acción correcta.

Perspectivas innovadoras para pensar

  • Información multimodal: además de los fotogramas de vídeo, también se puede utilizar información multimodal, como descripciones de audio y texto, para mejorar el rendimiento de la detección de acciones. Este enfoque permite una comprensión más completa del contenido de vídeo.

  • Mecanismo de atención: en la detección de acciones espaciotemporales, a menudo se introduce un mecanismo de atención para ayudar al modelo a centrarse en momentos clave y áreas espaciales relacionadas con las acciones del vídeo.

Supongo que te gusta

Origin blog.csdn.net/weixin_45751396/article/details/132780883
Recomendado
Clasificación