Conjuntos de datos comúnmente utilizados en la comprensión de videos

Este artículo conoce el enlace : https://zhuanlan.zhihu.com/p/573405333


1. Introducción

La comprensión de videos es una tarea importante en el campo de la visión por computadora, que se ha desarrollado rápidamente en los últimos años, y los conjuntos de datos de alta calidad son cruciales para la investigación de la comprensión de videos. En este documento, resumimos los conjuntos de datos comunes en la comprensión de videos, cubriendo múltiples tareas como reconocimiento de comportamiento, segmentación de comportamiento, posicionamiento de tiempo, comprensión audiovisual, etc., y adjuntamos los enlaces correspondientes para que los lectores puedan ingresar directamente al sitio web correspondiente para consulta la información de cada conjunto de datos. Además, algunos conjuntos de datos se pueden aplicar a múltiples tareas y tienen cierto cruce.

Los conjuntos de datos involucrados en este documento y su coincidencia de tareas son los siguientes :

misión principal Conjuntos de datos comunes
Reconocimiento/clasificación de comportamiento HMDB51, UCF101, ActivityNet1.3, Kinetics400, Kinetics-Sounds, VGGSound, EPIC-KITCHENS-100, THUMOS'14等
posicionamiento de tiempo ActivityNet1.3, THUMOS'14, Charadas, AVE, LLP, EPIC-COCINAS-100等
comprensión audiovisual AVE, LLP, AVSBench, MUSIC-AVQA, Kinetics-Sounds, EPIC-KITCHENS-100, VGGSound等
Segmentación conductual GTEA, Desayuno, 50Ensaladas等
primera perspectiva EPIC-COCINAS-100, EGTEA Gaze++, Ego4D, etc.

La información básica del conjunto de datos es la siguiente :

número de serie nombre del conjunto de datos tareas basicas número de categorías tamaño total Duración media (segundos) Duración total (hora)
1 HMDB51 [1] reconocimiento de comportamiento 51 6,714 3-10 ——
2 UCF101 [2] reconocimiento de comportamiento 101 13,320 7.21 26.67
3 ActividadNet1.3 [3] Reconocimiento de comportamiento, etc. 200 20,000 180 700
4 charadas [4] reconocimiento de comportamiento 157 9,848 —— ——
5 Cinética400 [5] reconocimiento de comportamiento 400 236,532 10 657
6 Cinética-Sonidos [6] reconocimiento de comportamiento 31 18,716 10 51
7 EPIC-COCINAS-100 [7] reconocimiento de comportamiento v.97, n.300 89,977 3.1 100
8 THUMOS'14 [8] posicionamiento de tiempo 20 413 68.86 7.56
9 AV [9] Posicionamiento de vídeo 28 4,143 10 11
10 LLP [10] Posicionamiento de vídeo 25 11,849 10 33
11 AVSBench [11] Segmentación de videos 23 4,932 5 6.85
12 Sonido VGG [12] reconocimiento de comportamiento 309 185,229 10 514
13 MÚSICA-AVQA [13] Audiovisual pregunta y respuesta. 22 9,288 60 150
14 Desayuno [14] Segmentación conductual 1712 1989 139.37 77
15 50Ensaladas [15] Segmentación conductual 17 50 384 5.33
dieciséis GTEA [16] Segmentación conductual 7 28 74.34 0.58
17 EGTEA Mirada++ [17] Posicionamiento de tiempo, etc. 106 86 1214 29
18 Ego4D [18] Posicionamiento de tiempo, etc. —— —— —— 3670

Nota : este artículo enumera los conjuntos de datos comunes en la comprensión de videos. Este artículo enumera los conjuntos de datos comunes en la comprensión de videos. Para la mayoría de los investigadores en universidades y otras instituciones de investigación científica, es un conjunto de datos relativamente fácil de usar.


2. Introducción al conjunto de datos

2.1. HMDB51

  • Enlace del sitio web oficial: https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
  • Documento relacionado: HMDB: una gran base de datos de video para el reconocimiento de movimiento humano .
  • Año de lanzamiento: 2011, ICCV
  • Tarea principal: Reconocimiento de acciones
  • Autores principales: Hildegard Kuehne, Huei-han Jhuang, Estibaliz Garrote, Tomaso Poggio , Thomas Serre
  • Equipo: SERRE LAB , un grupo de investigación de la Universidad de Brown, EE. UU.
  • Escala de datos: 51 tipos de acciones, un total de 6849 videos, cada acción contiene al menos 51 videos, resolución 320 * 240, el tamaño completo del conjunto de datos es de aproximadamente 2 GB;
  • breve introducción:
    • Pequeña cantidad de datos, fácil de descargar y usar;
    • La mayoría de los videos provienen de películas y algunos de ellos provienen de bases de datos públicas y videotecas en línea como YouTube;
    • Las acciones se dividen principalmente en cinco categorías: 1) acciones faciales generales (sonreír, reír, etc.); 2) manipulación facial y manipulación de objetos (fumar, comer, beber, etc.); escaleras, etc.); 4) interacción con objetos (peinarse, golf, montar a caballo, etc.); 5) acciones del cuerpo humano (esgrima, abrazos, besos, etc.).

2.2. UCF101

  • Enlace del sitio web oficial: https://www.crcv.ucf.edu/data/UCF101.php
  • Documento relacionado: UCF101: un conjunto de datos de 101 clases de acción humana de videos en estado salvaje .
  • Año de lanzamiento: 2012
  • Tarea principal: Reconocimiento de acciones
  • Autores principales: Khurram Soomro , Amir Roshan Zamir y Mubarak Shah
  • Equipo: Centro de Investigación en Visión por Computador , Universidad de Florida Central, EE. UU.
  • Escala de datos: 101 tipos de acciones, un total de 13320 videos, el tamaño completo del conjunto de datos es de aproximadamente 7 GB;
  • breve introducción:
    • Pequeña cantidad de datos, fácil de descargar y usar;
    • El intervalo de duración es [1,06, 71,04] segundos, la duración media es de 7,21 segundos y la duración total es de 1600 minutos;
    • Resolución 320*240, incluyendo información de audio, formato avi;
    • Videos de acción real con 101 categorías de acción recopiladas de YouTube;
    • Las acciones se dividen principalmente en 5 categorías: 1) interacción humano-objeto, 2) solo movimiento del cuerpo, 3) interacción humano-humano, 4) tocar instrumentos musicales, 5) deportes,
    • Los videos de 101 categorías de acción se dividen en 25 grupos, y cada grupo puede contener videos de 4 a 7 acciones. Los videos del mismo grupo pueden compartir algunas características comunes, como fondos similares, perspectivas similares, etc.

2.3. ActividadNet1.3

  • Enlace del sitio web oficial: http://activity-net.org/
  • Documento relacionado: Activitynet: un punto de referencia de video a gran escala para comprender la actividad humana.
  • Año de lanzamiento: 2015, CVPR
  • Tareas principales: reconocimiento de actividades, localización de acciones temporales, subtítulos densos de eventos
  • 主要作者:Caba Heilbron Fabian, Escorcia Victor, Ghanem ernard, Carlos Niebles Juan
  • Equipo afiliado: Visual Computing Center (VCC) , KAUST
  • breve introducción:
    • Proporcionar un conjunto de datos a gran escala que cubra las actividades más relevantes de los seres humanos en la vida diaria, con más videos y más largos, categorías más ricas, más categorías y mayor precisión de etiquetas;
    • La versión principal actual del conjunto de datos de ActivityNet es la v1.3, que incluye 20 000 videos de YouTube;
    • El conjunto de entrenamiento contiene aproximadamente 10 000 videos, y el conjunto de validación y el conjunto de prueba contienen aproximadamente 5000 videos cada uno;
    • Un total de unas 700 horas de vídeos, con una media de 1,5 instancias de acción por vídeo;
    • La mayoría de los videos tienen una duración de 5 a 10 minutos, el 50 % de los videos tienen una resolución de 1280 x 720 y la mayoría de los videos tienen una resolución de 30 FPS;
    • Las categorías se dividen principalmente en 7 categorías: cuidado personal, dieta, actividades familiares, cuidado y asistencia, trabajo, entretenimiento social, ejercicio.

2.4. charadas

  • Enlace del sitio web oficial: https://prior.allenai.org/projects/charades
  • Documento relacionado: Hollywood en los hogares: Recopilación de datos de crowdsourcing para la comprensión de la actividad.
  • Año de lanzamiento: 2016, ECCV
  • Tareas principales: reconocimiento de acciones, localización temporal
  • Autores principales: Gunnar A. Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, Abhinav Gupta
  • Equipo: Instituto Allen para IA , Universidad Carnegie Mellon
  • breve introducción:
    • 157 categorías de acción, 9.848 videoclips, 27.847 descripciones;
    • El primer conjunto de datos de reconocimiento de comportamiento diario en la escena interior del hogar, el usuario primero escribe el guión (haciendo oraciones basadas en palabras clave), luego graba el video él mismo y finalmente otros lo marcan.
  • Otras versiones:
    • CharadesEgo (CVPR' 2018, PDF ), el primer conjunto de datos de reconocimiento de acciones emparejadas , es decir, para la misma serie de acciones, hay videos en primera y tercera persona;
    • Action Genome (CVPR' 2020, PDF ) es una anotación secundaria de Charades, que incluye la relación entre personas y objetos. Las nuevas anotaciones incluyen personas, objeto bbox y la relación entre personas y objetos.

2.5. Cinética400

  • Enlace del sitio web oficial: https://www.deepmind.com/open-source/kinetics
  • Documento relacionado: El conjunto de datos de video de la acción humana de la cinética.
  • Año de lanzamiento: 2017
  • Tarea principal: Reconocimiento de acciones
  • Autores principales: Will Kay, Joao Carreira, Paul Natsev, Mustafa Suleyman, Andrew Zisserman , etc.
  • Equipo: DeepMind
  • breve introducción:
    • Conjunto de datos de URL de video de YouTube a gran escala y de alta calidad, el tamaño completo es de aproximadamente 140 GB;
    • Contiene 400 clases de acción humana, cada acción tiene al menos 400 clips de video, cada clip dura aproximadamente 10 segundos y está tomado de diferentes videos de YouTube;
    • Estas acciones están centradas en el ser humano y cubren una amplia gama de categorías, incluidas las interacciones entre humanos y objetos, como tocar un instrumento musical, e interacciones entre humanos, como darse la mano.
  • Otras versiones (versión extendida basada en Kinetics400)
    • Kinetics600 ( PDF ), 600 categorías de acción humana;
    • Kinetics700 ( PDF ), 700 categorías de acción humana;
    • AVA Kinetics ( PDF ), seleccionó parte del conjunto de datos de Kinetics700 para marcar la ubicación espacial, es decir, registrar la información de ubicación espacial de las acciones humanas;
    • Kinetics700-2020 ( PDF ), una extensión de Kinetics700 que garantiza al menos 700 videos por categoría.

2.6. Cinética-Sonidos

  • Enlace del sitio web oficial: https://www.deepmind.com/open-source/kinetics
  • Documento relacionado: Mira, escucha y aprende Enlace
  • Año de lanzamiento: 2017, CVPR
  • Tarea principal: reconocimiento de acciones audiovisuales
  • Autores principales: Arandjelovic Relja, Andrew Zisserman
  • Equipo: DeepMind
  • breve introducción:
    • Muy adecuado para tareas de comprensión de escenas relacionadas con audiovisuales;
    • Se seleccionaron 31 categorías que contenían sonidos objetivo visuales de Kinetics400;
    • Un total de 18176 videos (14799 conjunto de entrenamiento, 1320 conjunto de validación, 2597 conjunto de prueba).

2.7. EPIC-COCINAS-100

  • Enlace del sitio web oficial: https://epic-kitchens.github.io/2022
  • Documento relacionado: Cambio de escala de la visión egocéntrica: colección, canalización y desafíos para epic-kitchens-100. Enlace
  • Año de lanzamiento: 2022, IJCV
  • Autores principales: Dima Damen , Giovanni Maria Farinella
  • Equipo afiliado: Universidad de Bristol y Universidad de Catania
  • breve introducción:
    • Conjuntos de datos de perspectiva en primera persona a gran escala, incluida información de video y audio;
    • Los datos recopilados involucran 4 ciudades y 45 cocinas;
    • La duración total del video supera las 100 horas (Full HD, 60 fps) y el número total de fotogramas supera los 20 millones de fotogramas.
    • Contiene más de 90.000 fragmentos de acción, 97 categorías de verbos y 300 categorías de sustantivos.
  • Otras versiones
    • EPIC-COCINAS-55 (TPAMI'21, PDF ), la versión anterior, contiene 55 horas de contenido.

2.8. THUMOS'14

  • Enlace del sitio web oficial: https://www.crcv.ucf.edu/THUMOS14/home.html
  • Documento relacionado: The THUMOS Challenge on Action Recognition for Videos “in the Wild” Enlace
  • Año de lanzamiento: 2014, CVIU'2017
  • Tareas principales: localización temporal, reconocimiento de acciones
  • Intérpretes: Haroon Idreesa, Amir R. Zamirb, Yu-Gang Jiangc, Alex Gorbane, Ivan Laptevd, Rahul Sukthankare, Mubarak Shaha
  • Equipo: Centro de Investigación en Visión por Computador , Universidad de Florida Central, EE. UU.
  • breve introducción:
    • Los videos no segmentados con 20 tipos de acciones se anotan con fragmentos de comportamiento de series temporales, incluidos 200 videos de conjuntos de verificación (incluidos 3007 fragmentos de comportamiento) y 213 videos de conjuntos de prueba (incluidos 3358 fragmentos de comportamiento). entrenar y probar el modelo de detección de comportamiento temporal;
    • Conjunto de entrenamiento: cada categoría tiene un promedio de 150 anotaciones de series de tiempo de acción, la duración promedio de cada acción es de 4.04 segundos, un total de 12159.8 segundos y un total de 3007 anotaciones de series de tiempo de acción;
    • Conjunto de prueba: cada categoría tiene un promedio de 167,9 anotaciones de tiempo de acción, la duración promedio de cada acción es de 4,47 segundos, un total de 15040,3 segundos y un total de 3358 anotaciones de tiempo de acción;
  • Otras versiones
    • THUMOS'15 ( Enlace ), incluyendo más categorías de acción y número de vídeos, pero los artículos sobre tareas de posicionamiento temporal que se ven actualmente son básicamente experimentos realizados en THUMOS'14.

2.9. CRA

  • Enlace del sitio web oficial: https://sites.google.com/view/audiovisualresearch
  • Documento relacionado: Localización de eventos audiovisuales en videos sin restricciones .
  • Año de lanzamiento: 2018, ECCV
  • Tarea principal: localización de eventos AV
  • Autores principales: Yapeng Tian , ​​Jing Shi , Bochen Li , Zhiyao Duan y Chenliang Xu
  • Equipo: Universidad de Rochester
  • breve introducción:
    • El problema de localización de eventos audiovisuales, un conjunto de datos que define los eventos audiovisuales como eventos que son tanto visibles como audibles en los videoclips;
    • Contiene tres tareas: localización de eventos de audio y video supervisados, localización de eventos de audio y video supervisados ​​débilmente y localización de eventos de audio y video intermodal;
    • El conjunto de datos proyectó un total de 4143 videos de AudioSet, incluidas 28 categorías;
    • Cada categoría tiene al menos 60 videos, cada video tiene una duración de 10 segundos y contiene al menos 2 segundos de eventos audiovisuales.

2.10. LLP

  • Enlace del sitio web oficial: https://github.com/YapengTian/AVVP-ECCV20
  • Documento relacionado: Percepción multisensorial unificada: análisis de video audiovisual supervisado débilmente.
  • Año de lanzamiento: 2020, ECCV
  • Tarea principal: análisis de video, audio y video.
  • Autores principales: Yapeng Tian , ​​Dingzeyu Li y Chenliang Xu
  • Equipo: Universidad de Rochester
  • breve introducción:
    • Nombre completo de LLP: mirar, escuchar y analizar
    • Análisis de video audiovisual, es decir, analizar los eventos visuales, los eventos sonoros y los eventos audiovisuales en el video;
    • Se proyectaron 11.849 videos de AudioSet, un total de 25 categorías, con una duración total de más de 32,9 horas;
    • Cada video tiene una etiqueta de nivel de video, que es la etiqueta de categoría de video;
    • Cada video debe tener una duración de 10 segundos, con al menos 1 segundo de eventos de audio o visuales;
    • El conjunto de verificación y el conjunto de prueba contienen 1849 videos, con un total de 6626 anotaciones de eventos, incluidos 4131 eventos de sonido, 2495 eventos visuales y 2488 eventos audiovisuales;
    • El conjunto de entrenamiento en la tarea usa 10 000 videos etiquetados a nivel de video, y las etiquetas finas restantes se usan para el conjunto de verificación/prueba.

2.11. AVSBanca

  • Enlace del sitio web oficial: https://opennlplab.github.io/AVSBench/
  • Artículos relacionados: Segmentación Audiovisual, Enlace
  • Año de lanzamiento: 2022, ECCV
  • Tarea principal: segmentación audiovisual
  • Autores principales: Jinxing Zhou, Jianyuan Wang, Meng Wang, Yiran Zhong
  • Equipo: Equipo de Comprensión Visual , Universidad Tecnológica de Hefei
  • breve introducción:
    • Tarea de segmentación audiovisual: para segmentar con precisión la imagen completa del objeto que suena en el cuadro de video, es decir, usar el audio como una señal de guía para determinar qué objeto segmentar y obtener su máscara completa a nivel de píxel;
    • AVSBench se puede dividir en dos subconjuntos: conjuntos de fuente única (fuente única) y fuentes múltiples (fuentes múltiples), que corresponden a dos tareas de segmentación audiovisual en fuente única y fuente múltiple, respectivamente;
    • Subconjunto de fuente única: contiene 4932 videos en 23 categorías, que cubren objetos que suenan típicos en la vida diaria, como humanos, animales, vehículos e instrumentos musicales;
    • Subconjunto de fuentes múltiples: seleccione 2-3 combinaciones de palabras clave efectivas de la categoría de subconjunto de fuente única y luego seleccione 424 del sitio web de YouTube como videos de fuentes múltiples;
    • Cada video se muestrea en 5 cuadros a intervalos iguales. Para un subconjunto de una sola fuente, solo se marca el primer cuadro de video muestreado; para un subconjunto de múltiples fuentes, se marcan los cinco cuadros muestreados;

2.12. VGGSonido

  • Enlace del sitio web oficial: https://www.robots.ox.ac.uk/~vgg/data/vggsound/
  • Documento relacionado: VGGSound: un conjunto de datos audiovisuales a gran escala, enlace
  • Año de lanzamiento: 2020, ICASSP
  • Tareas principales: Honglie Chen, Weidi Xie, Andrea Vedaldi y Andrew Zisserman
  • Autor principal: Reconocimiento de audio
  • Equipo: Visual Geometry Group (VGG) , Universidad de Oxford, Reino Unido
  • breve introducción:
    • 311 categorías, más de 200.000 vídeos, con una duración total de 550 horas;
    • Cada etiqueta de audio es una sola etiqueta y no existe una relación jerárquica entre las etiquetas;
    • El conjunto de datos tiene consistencia audiovisual y es adecuado para la exploración de tareas de comprensión de escenas audiovisuales.

2.13. MÚSICA-AVQA

  • Enlace del sitio web oficial: https://gewu-lab.github.io/MUSIC-AVQA/
  • Documento relacionado: Aprender a responder preguntas en escenarios audiovisuales dinámicos, enlace
  • Año de lanzamiento: 2022, CVPR
  • Tarea principal: pregunta y respuesta audiovisual
  • Autores principales: Guangyao Li , Yake Wei , Yapeng Tian , ​​Chenliang Xu , Ji-Rong Wen y Di Hu
  • Equipo afiliado: GeWu-Lab , Instituto Hillhouse de Inteligencia Artificial, Universidad Renmin de China
  • breve introducción:
    • Tarea de respuesta a preguntas audiovisuales, que tiene como objetivo responder preguntas sobre diferentes objetos visuales, sonidos y sus asociaciones en videos;
    • El conjunto de datos cubre una gran cantidad de pares de preguntas y respuestas de preguntas de sonido, preguntas visuales y preguntas audiovisuales, que es más completa y rica que ActivityNet-QA, TVQA, etc. en comparación con los conjuntos de datos de preguntas y respuestas;
    • El conjunto de datos se compone de escenas de interpretación de instrumentos musicales con ricos componentes audiovisuales, lo que es útil para estudiar mejor la comprensión y el razonamiento de la escena de interacción audiovisual, y puede evitar el problema del ruido en la escena hasta cierto punto;
    • El conjunto de datos contiene 9288 videos y contiene 22 tipos de instrumentos musicales, con una duración total de más de 150 horas;
    • En la modalidad de crowdsourcing se formaron 45.867 pares pregunta-respuesta, con un promedio de alrededor de 5 pares pregunta-respuesta por video, estos pares pregunta-respuesta cubrieron 9 tipos de preguntas en diferentes modalidades y 33 plantillas de preguntas diferentes.

2.14. Desayuno

  • Enlace del sitio web oficial: https://serre-lab.clps.brown.edu/resource/breakfast-actions-dataset/
  • 相关论文:El lenguaje de las acciones: Recuperando la sintaxis y la semántica de las actividades humanas dirigidas a objetivos, Enlace
  • Año de lanzamiento: 2014, CVPR
  • Tarea principal: Segmentación de acciones
  • Autores principales: Hilde Kuehne, Ali Arslan, Thomas Serre
  • Equipo: SERRE LAB , un grupo de investigación de la Universidad de Brown, EE. UU.
  • breve introducción:
    • Consiste en 10 eventos de cocina realizados por 52 actores diferentes en múltiples ubicaciones de cocina. Los eventos de cocina incluyen la preparación de café, jugo de naranja, leche con chocolate y más;
    • El número de vídeos es de 1989, con una duración total de más de 77 horas.

2.15. 50ensaladas

  • Enlace del sitio web oficial: https://cvip.computing.dundee.ac.uk/datasets/foodpreparation/50salads/
  • 相关论文:Combinación de acelerómetros integrados con visión artificial para reconocer actividades de preparación de alimentos, enlace
  • Año de lanzamiento: 2013, UbiComp
  • Tarea principal: Segmentación de acciones
  • Autores principales: Sebastian Stein y Stephen J. McKenna
  • Equipo: CVIP , Facultad de Informática, Universidad de Dundee, Reino Unido
  • breve introducción:
    • Contiene 50 videos, 17 categorías, cada video tiene una duración promedio de 6.4 minutos y 20 instancias;
    • La escena principal son 25 personas con 2 ensaladas cada una.

2.16. GTEA

  • Enlace del sitio web oficial: https://cbs.ic.gatech.edu/fpv/
  • Documento relacionado: Aprender a reconocer objetos en actividades egocéntricas, Enlace
  • Año de lanzamiento: 2011, CVPR
  • Tarea principal: Segmentación de acciones
  • Autores principales: Alireza Fathi, Xiaofeng Ren, James M. Rehg
  • Equipo afiliado: Facultad de Informática , Instituto de Tecnología de Georgia
  • breve introducción:
    • Nombre completo de GTEA: Georgia Tech Egocentric Activity
    • Los videos son en su mayoría conjuntos de datos de perspectiva en primera persona;
    • Contiene principalmente 7 tipos de actividades diarias (como hacer sándwiches, té o café, etc.), cada actividad es realizada por cuatro personas diferentes;
    • Hay 28 videos en total, y cada video tiene alrededor de 20 instancias de acción detalladas;
    • La frecuencia de muestreo del conjunto de datos oficial es de 15 fps, con un total de 31222 fotogramas.

2.17. EGTEA Mirada++

  • Enlace del sitio web oficial: https://cbs.ic.gatech.edu/fpv/
  • 相关论文:En el ojo del espectador: aprendizaje conjunto de la mirada y las acciones en video en primera persona, Enlace
  • Año de lanzamiento: 2018, ECCV
  • Tareas principales: Reconocimiento de acciones, Estimación de la mirada
  • Autores principales: Yin Li, Miao Liu, James M. Rehg
  • Equipo afiliado: Facultad de Informática , Instituto de Tecnología de Georgia
  • breve introducción:
    • Conjunto de datos de comprensión de video en primera persona, el material de este conjunto de datos proviene de escenas de cocina naturales;
    • Anotación a nivel de cuadro, el tamaño del video del conjunto de datos original es de aproximadamente 26G;
    • La duración total del video del conjunto de datos es de 29 horas, contiene alrededor de 15176 instancias de acción, y el número total de categorías de estas acciones es 200;
    • Cada cuadro del video está anotado con la mirada correspondiente (información de la mirada), ya que el movimiento de los ojos refleja el proceso de pensamiento de una persona y representa la atención humana;

2.18. Ego4D

  • Enlace del sitio web oficial: https://ego4d-data.org/
  • Documento relacionado: Ego4d: La vuelta al mundo en 3000 horas de vídeo egocéntrico, Enlace
  • Año de lanzamiento: 2022, CVPR
  • Tarea principal: comprensión de la escena en perspectiva en primera persona (16 puntos de referencia)
  • Autores principales: Kristen Grauman, Andrew Westbury, Antonio Torralba, etc.
  • Equipos: Meta AI, MIT, CMU, UC Berkeley, etc.
  • breve introducción:
    • Un conjunto de datos de comprensión de video en perspectiva en primera persona a gran escala, cuyo material proviene de escenas naturales;
    • La duración total del video supera las 3670 horas y el tamaño del video original es de aproximadamente 7T;
    • 5 categorías de tareas: Memoria episódica (memoria episódica), Manos y objetos (manos y objetos), Diarización audiovisual (registros audiovisuales), Interacciones sociales (actividades sociales) y Pronóstico (predicción)

3. Resumen

Con la actualización de la potencia informática y otros equipos de hardware, están surgiendo gradualmente conjuntos de datos de (ultra) gran escala basados ​​en datos. Estos modelos basados ​​en conjuntos de datos de (ultra) gran escala pueden superar fácilmente el cuello de botella de rendimiento anterior de pequeñas y medianas empresas. Conjuntos de datos de gran tamaño Grandes perspectivas. Sin embargo , dado que el autor está en una universidad, la potencia informática y otras instalaciones de hardware no se pueden comparar con la potencia informática de la empresa, por lo que la exploración basada en algunos conjuntos de datos clásicos es de gran importancia para los investigadores en universidades y otras instituciones de investigación científica. Aunque hay muchos conjuntos de datos en el campo de la comprensión de videos, y constantemente se proponen nuevos conjuntos de datos, algunos conjuntos de datos de referencia aún son reconocidos por todos. Este artículo se basa en la dirección de mi propia exploración (reconocimiento de comportamiento/clasificación/segmentación , posicionamiento de series temporales, comprensión audiovisual, etc.), y se adjuntan los autores y equipos de estos conjuntos de datos. A menudo se cultivan profundamente en este campo durante muchos años y son dignos de atención . Debido a limitaciones de tiempo, si este artículo está incompleto o tiene errores administrativos, no dude en señalarlo y se seguirá actualizando en el futuro.


referencias

[1] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio y T. Serre, "Hmdb: una gran base de datos de video para el reconocimiento del movimiento humano", en 2011 Conferencia internacional sobre visión por computadora . IEEE, 2011, págs. 2556–2563.

[2] K. Soomro, AR Zamir y M. Shah, "Ucf101: un conjunto de datos de 101 clases de acciones humanas de videos en la naturaleza", preimpresión de arXiv arXiv: 1212.0402 , 2012.

[3] F. Caba Heilbron, V. Escorcia, B. Ghanem, y J. Carlos Niebles, “Activitynet: A large-scale video benchmark for human activity listening”, en Actas de la conferencia ieee sobre visión por computadora y reconocimiento de patrones , 2015, págs. 961–970.

[4] GA Sigurdsson, G. Varol, X. Wang, A. Farhadi, I. Laptev y A. Gupta, "Hollywood en hogares: Recopilación de datos de crowdsourcing para la comprensión de la actividad", en Conferencia europea sobre visión artificial . Springer, 2016, págs. 510–526.

[5] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev et al., “The kinetics human conjunto de datos de video de acción”, versión preliminar de arXiv arXiv:1705.06950 , 2017.

[6] R. Arandjelovic y A. Zisserman, "Mira, escucha y aprende", en Actas de la Conferencia internacional IEEE sobre visión artificial , 2017, págs. 609–617.

[7] D. Damen, H. Doughty, GM Farinella, A. Furnari, J. Ma, E. Kazakos, D. Moltisanti, J. Munro, T. Perrett, W. Price y M. Wray, “Rescaling visión egocéntrica: colección, canalización y desafíos para epic-kitchens-100”, International Journal of Computer Vision , vol. 130, pág. 33–55, 2022.

[8] H. Idrees, AR Zamir, Y. Jiang, A. Gorban, I. Laptev, R. Sukthankar y M. Shah, “El desafío thumos sobre el reconocimiento de acciones para videos “en la naturaleza”,” Computer Vision and Comprensión de la imagen , vol. 155, págs. 1 a 23, 2017.

[9] Y. Tian, ​​J. Shi, B. Li, Z. Duan y C. Xu, "Localización de eventos audiovisuales en videos sin restricciones", en Actas de la Conferencia Europea sobre Visión por Computador , 2018, págs. 247 –263.

[10] Y. Tian, ​​D. Li y C. Xu, "Percepción multisensorial unificada: análisis de video audiovisual supervisado débilmente", en Conferencia europea sobre visión artificial . Springer, 2020, págs. 436–454.

[11] J. Zhou, J. Wang, J. Zhang, W. Sun, J. Zhang, S. Birchfield, D. Guo, L. Kong, M. Wang y Y. Zhong, “Audio-visual segmentation, ” en la Conferencia Europea de Visión por Computador , 2022.

[12] H. Chen, W. Xie, A. Vedaldi y A. Zisserman, "Vggsound: un conjunto de datos audiovisuales a gran escala", en ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing . IEEE, 2020, págs. 721–725.

[13] G. Li, Y. Wei, Y. Tian, ​​C. Xu, J.-R. Wen y D. Hu, "Aprender a responder preguntas en escenarios audiovisuales dinámicos", en Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones , 2022, págs. 19108-19118.

[14] H. Kuehne, A. Arslan y T. Serre, "El lenguaje de las acciones: recuperación de la sintaxis y la semántica de las actividades humanas dirigidas a objetivos", en Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones, 2014 , págs. 780–787.

[15] S. Stein y SJ McKenna, "Combinación de acelerómetros integrados con visión artificial para reconocer actividades de preparación de alimentos", en Actas de la conferencia conjunta internacional ACM de 2013 sobre computación ubicua y generalizada , 2013, págs. 729–738.

[16] A. Fathi, X. Ren y JM Rehg, "Aprender a reconocer objetos en actividades egocéntricas", en Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones . IEEE, 2011, págs. 3281–3288.

[17] Y. Li, M. Liu y JM Rehg, “En el ojo del espectador: aprendizaje conjunto de la mirada y las acciones en video en primera persona”, en Actas de la conferencia europea sobre visión artificial (ECCV), 2018, págs. 619–635.

[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video”, en Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012. in first person video”, en Proceedings of the European conference on computer
vision (ECCV), 2018, págs. 619–635.

[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around el mundo en 3000 horas de video egocéntrico”, en Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, págs. 18 995–19 012.

Supongo que te gusta

Origin blog.csdn.net/CAU_Ayao/article/details/127324202
Recomendado
Clasificación