CVPR 2022 Oral | Tsinghua Open Source FineDiving: conjunto de datos de evaluación de calidad de acción de grano fino

Haga clic en la tarjeta a continuación para seguir la cuenta pública " CVer "

Productos secos pesados ​​AI/CV, entregados lo antes posible

Autor : Hetang Xiaobajie |   Reimpreso con autorización (fuente: Zhihu) Editor: CVer

https://zhuanlan.zhihu.com/p/495367542

f90eafea9632dbaa4edfbf02047002de.png

Aquí para compartir con ustedes nuestro trabajo que fue aceptado como CVPR 2022 Oral: FineDiving: un conjunto de datos detallados para la evaluación de la calidad de la acción consciente de los procedimientos

  • Unidad: Universidad de Tsinghua

  • Página de inicio del proyecto: https://finediving.ivg-research.xyz/

  • Repositorio de código: github.com/xujinglin/FineDiving

  • Documento: arxiv.org/abs/2204.03646

1. Introducción

La comprensión de videos de deportes competitivos se ha convertido en un tema de investigación candente en el campo de la visión artificial. Como una de las técnicas clave para comprender los movimientos deportivos, la evaluación de la calidad del movimiento (AQA) ha recibido una atención creciente en los últimos años. En las competencias de gimnasia de los Juegos Olímpicos de Tokio 2020, el sistema de puntuación de IA no solo puede calificar el desempeño de los atletas para reducir las disputas de puntajes en muchos elementos de puntuación subjetivos como saltos y gimnasia, sino también mejorar la competitividad de los atletas. nivel por retroalimentación sobre la calidad de los movimientos.

AQA evalúa la calidad de ejecución de una acción analizando el rendimiento de la acción en el video. A diferencia del reconocimiento de acción tradicional, AQA es más desafiante: el reconocimiento de acción puede identificar una acción a partir de una o varias imágenes, mientras que AQA necesita recorrer toda la secuencia de acción para evaluar la calidad de la acción. La mayoría de los métodos AQA existentes hacen retroceder diferentes puntajes de calidad de acción a través de las características profundas de los videos; sin embargo, es difícil evaluar la calidad entre diferentes acciones con pequeñas diferencias en contextos similares. Por ejemplo, las competiciones de saltos suelen filmarse en centros acuáticos y todos los deportistas del vídeo realizan la misma secuencia de movimientos: despegue, acción aérea y entrada al agua. Los matices de estos programas de movimiento se reflejan principalmente en el número de giros de los lanzamientos y giros del atleta, la posición en el aire y la entrada de agua (p. ej., el tamaño de la salpicadura) al realizar el movimiento aéreo. Capturar estas diferencias sutiles requiere un método AQA que no solo analice los pasos individuales de la acción de buceo, sino que también cuantifique explícitamente la calidad de la ejecución de la acción para esos pasos. Si solo retrocedemos el puntaje de acción por las características profundas de todo el video, considerando que el conjunto de datos AQA existente carece de anotaciones detalladas para el proceso de acción, no podemos analizar la ejecución de cada paso de acción y explicar el puntaje final, entonces esta evaluación método no es claro y opaco. Por lo tanto, construimos un conjunto de datos de videos de deportes competitivos detallados para ayudar a diseñar un método de puntuación más confiable y transparente hacia AQA explicable.

El conjunto de datos que construimos " FineDiving " (abreviatura de Fine-grained Diving) se centra en varios eventos de buceo, que es el primer conjunto de datos de video detallado para AQA . FineDiving incluye las siguientes características: (1) Estructura semántica de dos capas. Todos los videos se anotan semánticamente en dos niveles, a saber, tipo de acción y tipo de subacción, donde se generan diferentes tipos de acción al combinar diferentes tipos de subacción; (2) estructura de tiempo de dos capas. Las instancias de acción en cada video se anotan con límites de tiempo y se descomponen en pasos consecutivos de acuerdo con un diccionario definido; (3) puntajes oficiales de buceo, puntajes de árbitros, niveles de dificultad del coeficiente FINA. Como se muestra en la Figura 1. Basado en FineDiving, proponemos además un método AQA basado en procedimientos para evaluar la calidad de la acción. El marco propuesto aprende incrustaciones conscientes del proceso mediante la creación de un nuevo módulo de atención de segmentación temporal (TSA) para lograr una puntuación confiable con una mejor interpretabilidad.

495f7598c76160cf4009b9d4b3ba318f.png
(1)Una descripción general del conjunto de datos de FineDiving y el enfoque de evaluación de la calidad de la acción consciente del procedimiento.

2. Conjunto de datos FineDiving

Hemos recopilado videos de eventos de buceo de los Juegos Olímpicos, la Copa del Mundo, los Campeonatos del Mundo y los Campeonatos de Europa. Cada video de competencia brinda una gran cantidad de contenido, que incluye registros de buceo de todos los atletas, repeticiones lentas desde diferentes perspectivas y más.

Construimos una estructura semántica de dos capas (como se muestra en la Figura (2)) como un diccionario para anotar etiquetas de nivel de acción y etiquetas de nivel de paso. Las etiquetas de nivel de acción describen los tipos de acción del atleta, y las etiquetas de nivel de paso describen los tipos de subacción de pasos sucesivos en el proceso de acción.Los pasos adyacentes en un proceso de acción pertenecen a diferentes tipos de subacción. Por ejemplo, el tipo de acción "5255B" se ejecuta secuencialmente por pasos con los tipos de acción secundaria "Atrás", "2.5 Pike de saltos mortales" y "2.5 Giros". Además, construimos una estructura temporal de dos capas (Fig. (3)) con etiquetas de nivel de acción que anotan los límites temporales de cada atleta que realiza una instancia de acción completa (durante este proceso de anotación, todas las instancias de acción incompletas se descartan y filtran). reproducción lenta). Las etiquetas de nivel de paso marcan el marco inicial de pasos sucesivos en el proceso de acción. Por ejemplo, para una instancia de acción cuyo tipo de acción es "5152B", los fotogramas de inicio de sus pasos consecutivos son 18930, 18943, 18957, 18967 y 18978, respectivamente.

8cf35aa5369d8e3c2d1e71f51ef95788.png
(2) Estructura semántica de dos niveles.
c6ce22f8d437f6ba0fd05a0fcf6fbff9.png
(3)Estructura temporal de dos niveles.

Dado un video de buceo original, el anotador utiliza nuestro léxico definido para anotar cada instancia de acción y su proceso. Completamos dos etapas de anotación de granularidad gruesa a granularidad fina: la etapa de granularidad gruesa anota el tipo de acción y su límite temporal y la puntuación de cada instancia de acción, y la etapa de granularidad fina anota el tipo de subacción de cada paso en el proceso de acción y su marco de inicio.

El conjunto de datos de FineDiving contiene 3000 muestras, que cubren 52 tipos de acción, 29 tipos de subacción y 23 niveles de dificultad, como se muestra en la Figura (4).

0b24d9c74cf43d436cb9f57dba05e416.png
(4)Estadísticas de FineDiving.

De acuerdo con la Tabla (5), FineDiving es diferente de los conjuntos de datos AQA existentes en el tipo de anotación y la escala de datos: los conjuntos de datos MIT-Dive, UNLV y AQA-7-Dive solo proporcionan puntajes de acción, mientras que MTL-AQA proporciona anotaciones de grano grueso (es decir, tipo de acción y límites temporales), mientras que FineDiving proporciona anotaciones detalladas (incluido el tipo de acción, el tipo de subacción, los límites temporales detallados y detallados y las puntuaciones de la acción). Además, no se pueden utilizar otros conjuntos de datos de movimiento de grano fino para evaluar la calidad del movimiento debido a la falta de puntuaciones de movimiento. No es difícil encontrar que FineDiving, como el primer conjunto de datos de video de movimiento de granularidad fina para la tarea de AQA, llena el vacío de la anotación de granularidad fina en AQA.

fa512380e4cd90354c92e11b775ba238.png
(5) Comparación de conjuntos de datos de videos deportivos existentes y buceo fino. La puntuación representa puntuaciones de acción; el paso representa categorías detalladas y límites de tiempo; la acción representa categorías detalladas y límites de tiempo; el tubo contiene categorías detalladas, límites de tiempo y posición espacial.

3. Método

Además, proponemos un enfoque consciente del proceso para evaluar la calidad de la acción mediante la creación de un nuevo módulo de atención de segmentación temporal (TSA) para evaluar las puntuaciones de acción de una manera interpretable. TSA consta de tres partes: segmentación de procedimientos, atención cruzada consciente de procedimientos y regresión contrastiva de grano fino. Primero, la segmentación del proceso de acción analiza pares de instancias de acción de consulta e instancias de acción de referencia en pasos consecutivos que están alineados semántica y temporalmente. En segundo lugar, la atención cruzada consciente del proceso descubre la correspondencia espaciotemporal entre los pasos de consulta emparejados y los pasos ejemplares mediante el aprendizaje, y genera nuevas características en estos dos pasos. Los pares de pasos se complementan entre sí para guiar al modelo a centrarse en regiones consistentes en el paso ejemplar y el paso de consulta, donde el paso ejemplar conserva la información espacial de los mapas de características. Finalmente, la regresión contrastiva detallada cuantifica alguna secuencia de desviaciones de pasos entre las instancias de acción de consulta y las instancias de acción de ejemplo aprendiendo las puntuaciones relativas de los pasos por pares para guiar el modelo para evaluar la calidad de la acción.

34b647893c5f90acf585f70b4e9a5b38.png
(6)La arquitectura de la evaluación de la calidad de la acción consciente del procedimiento propuesta.

En cuanto a la estrategia de selección de ejemplares en TSA. Elija un ejemplar del conjunto de entrenamiento según el tipo de acción. Durante la fase de entrenamiento, para cada muestra de entrenamiento (consulta), se selecciona aleatoriamente una como ejemplo de otras muestras de entrenamiento con el mismo tipo de acción. En la etapa de inferencia, se adopta una estrategia de votación de muestras múltiples: se seleccionan aleatoriamente M muestras como M ejemplares de las muestras de entrenamiento con el mismo tipo de acción.

4. Experimenta

4.1 Métricas

Evaluamos nuestro método por las siguientes tres métricas:

  • Intersección promedio sobre unión:

41d0203e6449df9a50d3c06d208db865.png

  • correlación de rango de Spearman

f2180f33ac4f32dcfd1fd551164ef09f.png

  • Distancia L2 relativa

    a7a8e1e860bc268c828522ef64a26c4d.png

4.2 Resultados y Análisis

  • Resultados de la comparación de nuestro método (TSA) con otros métodos AQA (ver Tabla (7)).

27cac8127aebe9cc52d84b9fe241a459.png
(7) Comparaciones de rendimiento con los métodos AQA existentes en FineDiving.
  • Experimentos de ablación de nuestro método (TSA) (ver Tabla (8)).

73a11f8f4891d55461af6581605423ba.png
(8)Estudios de ablación en FineDiving.
  • El efecto del número de ejemplares de voto en TSA (ver Tabla (9)).

be0c7d92bfb9ca43fb78b9b656b09e8f.png
(9)Efectos del número de ejemplares para votar.
  • Visualización de la atención cruzada consciente del proceso entre consultas emparejadas y ejemplos de referencia.

7f25285bf7e86ee695fd7465da39d043.png
(10) La visualización de la atención cruzada consciente del procedimiento entre la consulta por pares y los procedimientos ejemplares.

Nuestro método puede centrarse en regiones de referencia que son coherentes con los pasos de consulta, lo que hace que la cuantificación de las diferencias relativas paso a paso en la calidad de la acción sea más robusta, donde los pares de consulta y referencia se presentan con el mismo tipo de acción y tipo de subacción. .

En conclusión

FineDiving es el primer conjunto de datos de video deportivo detallado para la tarea AQA. Sobre la base de FineDiving, proponemos un método de evaluación de la calidad de la acción consciente del proceso mediante la construcción de un nuevo módulo TSA, que aprende regiones semánticas y espaciotemporalmente coherentes en pasos emparejados de consulta y referencia, lo que hace que el proceso de inferencia de la evaluación de la calidad de la acción sea más preciso. es interpretable y logra mejoras sustanciales sobre los métodos AQA existentes.

referencia principal

[1] Xumin Yu, Yongming Rao, Wenliang Zhao, Jiwen Lu y Jie Zhou. Regresión contrastiva consciente del grupo para la evaluación de la calidad de la acción. En ICCV, 2021.

[2] Yansong Tang, Zanlin Ni, Jiahuan Zhou, Danyang Zhang, Jiwen Lu, Ying Wu y Jie Zhou. Aprendizaje de distribución de puntaje consciente de la incertidumbre para la evaluación de la calidad de la acción. En CVPR, 2020.

[3] Dian Shao, Yue Zhao, Bo Dai y Dahua Lin. Finegym: un conjunto de datos de video jerárquico para una comprensión detallada de la acción. En CVPR, 2020.

[4] Paritosh Parmar y Brendan Tran Morris. ¿Qué y qué tan bien se desempeñó? un enfoque de aprendizaje multitarea para la evaluación de la calidad de la acción. En CVPR, 2019.

[5] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. arXiv:2010.11929, 2020.

 
  

ICCV y CVPR 2021 Descarga de papel y código

Respuesta entre bastidores: CVPR2021, puede descargar los documentos de CVPR 2021 y la colección de documentos de código abierto

Respuesta de antecedentes: ICCV2021, puede descargar los documentos de ICCV 2021 y la colección de documentos de código abierto

Respuesta de fondo: revisión de Transformer, puede descargar las últimas 3 revisiones de Transformer en PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

Supongo que te gusta

Origin blog.csdn.net/amusi1994/article/details/124089664
Recomendado
Clasificación