Conjunto de datos VidSitu

Para facilitar las necesidades de investigación científica posteriores, ahora se realizan investigaciones relevantes en el conjunto de datos de VidSitu.

Este conjunto de datos proviene del artículo "Visual Semantic Role Labeling for Video Understanding":

2104.00990.pdf (arxiv.org) icono-default.png?t=N3I4https://arxiv.org/pdf/2104.00990.pdf Este conjunto de datos está disponible a continuación:

Conjunto de datos VidSitu: reconocimiento de situaciones en videos icono-default.png?t=N3I4https://vidsitu.org/ La siguiente es solo una breve introducción a este conjunto de datos. Si desea obtener más información, consulte este documento o vaya al sitio web oficial del conjunto de datos.

Resumen

Este artículo propone un nuevo marco para comprender y representar eventos destacados relevantes en videos utilizando anotaciones de roles semánticos visuales. Los autores representan los videos como un conjunto de eventos relacionados, donde cada evento consta de un verbo y múltiples entidades que cumplen varios roles relacionados con el evento. Para estudiar la desafiante tarea de la anotación de roles semánticos en videos o VidSRL, este artículo propone el punto de referencia VidSitu, una fuente de datos de comprensión de videos a gran escala con 29.000 clips de película de 10 segundos ricamente anotados con verbos y 2 segundos para la anotación de roles semánticos . Las entidades tienen correferencias en eventos dentro de clips de película y los eventos están conectados entre sí a través de relaciones de eventos. Los clips de VidSitu se extrajeron de una gran colección de películas (3K) y se eligieron para que fueran complejos (4,2 verbos únicos en el video) y diversos (200 verbos con más de 100 anotaciones cada uno). Este conjunto de datos se analiza exhaustivamente en comparación con otros puntos de referencia de comprensión de video disponibles públicamente, se evalúan varias líneas de base ilustrativas y una variedad de modelos estándar de reconocimiento de video.

introducir

VidSitu es un gran conjunto de datos de comprensión de videos que contiene más de 2900 videos extraídos de un conjunto diverso de películas 3K. Los videos en VidStum tienen exactamente 10 segundos de duración y están anotados con 5 verbos , correspondientes a los eventos más significativos que ocurren dentro de los 5 intervalos de 2 segundos en el video . Cada anotación de verbo va acompañada de un conjunto de roles cuyos valores se anotan mediante texto de formato libre. A diferencia de las anotaciones verbales derivadas de un vocabulario fijo, las anotaciones de caracteres de forma libre permiten el uso de expresiones referenciales (por ejemplo, niño con bata) para eliminar la ambigüedad de las entidades en un vídeo. Se hace referencia sistemáticamente a las entidades que aparecen en cualquiera de los cinco clips del vídeo utilizando la misma expresión. Finalmente, el conjunto de datos también contiene anotaciones de relaciones de eventos, que capturan la causalidad (el evento Y es causado por/una reacción al evento X) y la contingencia (el evento X es un requisito previo del evento Y) . Los aspectos más destacados de VidStum incluyen:

        Situación diversa: VidStuon tiene un amplio vocabulario de verbos (que consta de 1500 verbos únicos, 200 verbos anotados con al menos 100 eventos) y entidades (5600 sustantivos únicos, 350 sustantivos que aparecen en al menos 100 videos);

        Complejidad: Cada video está anotado con 5 eventos interrelacionados, con un promedio de 4,2 verbos únicos, 6,5 entidades únicas y;

        Anotaciones enriquecidas: VidSitu proporciona una representación de eventos estructurada (3,8 roles por evento) con correferencias de entidades y etiquetas de relaciones de eventos.

Motivo de la presentación: Facilitar una mayor investigación sobre VidSRL y proporcionar un punto de referencia integral que respalde la evaluación parcial (para preguntas de evaluación) de las diversas capacidades necesarias para abordar VidSRL.

Principales contribuciones

  • Formulario de tareas VidSRL para comprender situaciones complejas en vídeos
  • Seleccione el conjunto de datos de VidStum, ricamente comentado, que consta de casos diversos y complejos para estudiar VidSRL;
  • Establecer métodos de evaluación para evaluar las capacidades clave requeridas por VidSRL y establecer líneas de base para cada componente utilizando componentes de última generación. El conjunto de datos y el código están disponibles públicamente en vidsitu.org.

Ejemplo de anotación de conjunto de datos

La escala temporal de los acontecimientos significativos. En vídeo, lo que constituye un acontecimiento destacado suele ser ambiguo y subjetivo. Por ejemplo, dado el clip de 10 segundos de la Figura 1, se podrían definir eventos detallados en torno a acciones atómicas como "Giro (evento 2, tercer fotograma)" o adoptar una visión más holística de la secuencia como si implicara "lucha". Debido a la falta de comprensión de las restricciones en las escalas de tiempo de los eventos, esta ambigüedad dificulta la anotación y la evaluación. Resolvemos esta ambigüedad limitando la selección de eventos significativos a un evento por intervalo de tiempo fijo. Acciones atómicas previamente identificadas [21] El trabajo se basa en Intervalos de 1 segundo. Una elección adecuada de intervalos de tiempo para anotar eventos es aquella que permite una descripción rica de vídeos complejos evitando al mismo tiempo acciones atómicas accidentales. Observamos cualitativamente que un intervalo de tiempo de 2 segundos es mejor para obtener información descriptiva. Hay un buen equilibrio entre eventos y la objetividad requerida para la evaluación del sistema. Por lo tanto, para cada segmento de 10 segundos, se anotan 5 eventos. La cuarta parte del artículo trata sobre la gestión, el análisis y las estadísticas del conjunto de datos, sin mucha introducción \left \{ E_i \right \}_{i=1}^{5}.

Índice de evaluación

1. Predicción verbal

2. Predicción de roles semánticos y citación colaborativa.

3. Precisión de la predicción de la relación de eventos.

Resultados experimentales

 

 

Supongo que te gusta

Origin blog.csdn.net/Mr___WQ/article/details/130493542
Recomendado
Clasificación