Boletín académico | CN-Celeb-AV: Lanzamiento de un conjunto de datos multimodales audiovisuales de múltiples escenas

Recientemente, el Equipo de Tecnología del Habla y el Lenguaje de la Universidad de Tsinghua y la Universidad de Correos y Telecomunicaciones de Beijing lanzó el Conjunto de datos multimodal de audio y video multiescena de celebridades chinas (CN-Celeb-AV) para investigadores en los campos del reconocimiento de identidad multimodal de audio y video ( AVPR) uso. Este conjunto de datos contiene más de 419 000 videoclips de 1136 celebridades chinas, que cubren 11 escenarios diferentes, y proporciona dos conjuntos de conjuntos de evaluación estándar, completos e incompletos. Los investigadores pueden buscar CN-Celeb-AV en el sitio web de recursos compartidos http://cnceleb.org y solicitar la descarga gratuita.

introducción de fondo

La tecnología biométrica es una tecnología que mide y analiza automáticamente las características biológicas humanas para autenticar la identidad personal. La huella de voz y la cara son dos de los tipos de datos biométricos más populares, principalmente porque se pueden recopilar de forma remota y sin contacto. En los últimos años, con el surgimiento del aprendizaje profundo y la acumulación de grandes datos, el rendimiento de estas dos tecnologías biométricas, el reconocimiento del hablante y el reconocimiento facial, ha mejorado significativamente y ha surgido una amplia gama de aplicaciones.

A pesar del impresionante progreso, tanto el reconocimiento de huellas de voz como el reconocimiento de rostros enfrentan sus propias dificultades prácticas. Para el reconocimiento de huellas de voz basado en audio, los desafíos radican en los cambios de contenido, las diferencias de canales, el ruido de fondo, el estilo de habla del hablante e incluso los cambios en el estado fisiológico. Para el reconocimiento facial basado en video, los desafíos provienen de cambios de iluminación, cambios de posición, oclusiones desconocidas, etc.

Para superar el techo de rendimiento de una sola modalidad, una idea intuitiva es integrar la información complementaria de las modalidades de audio y visual para construir un sistema de reconocimiento de identidad multimodal audiovisual (AVPR). Especialmente en escenarios de aplicaciones prácticas complejas, el sistema debería ser más robusto. Para responder a esta idea, el NIST inició la pista Audio-Visual Multimodal Identity Challenge [1] en SRE 2019 y la continuó en SRE 2021 [2]. La investigación AVPR existente adopta principalmente dos métodos: fusión de representación y modelado conjunto. Aunque estos estudios han logrado buenos resultados, los escenarios de datos de capacitación y evaluación son únicos y relativamente limitados, y es difícil reflejar la complejidad de las aplicaciones reales.Por ejemplo, en aplicaciones reales, a menudo se destruye o se pierde parte de la información modal.

Para facilitar la investigación de AVPR en escenarios de aplicaciones complejas, lanzamos un nuevo conjunto de datos de AVPR llamado CN-Celeb-AV. El proceso de recopilación de este conjunto de datos sigue los principios de CN-Celeb [3,4], incluidos los datos modales de audio y visuales. El conjunto de datos completo consta de dos partes: la parte "modal completa" y la parte "modal incompleta". El conjunto de datos completo cubre 11 escenarios del mundo real y contiene más de 419 000 videoclips de 1136 personas (celebridades chinas, vloggers y aficionados). Esperamos que CN-Celeb-AV sea un punto de referencia adecuado para AVPR con la complejidad del mundo real.

características de los datos

CN-Celeb-AV posee varias propiedades deseables que lo hacen adecuado para la investigación de AVPR para abordar los desafíos del mundo real.

1. Incertidumbre del mundo real : casi todos los videoclips contienen incertidumbre del mundo real. Contenido de audio, ruido, canal, múltiples personas, cambios en el estilo de hablar, etc.; pose de la cara, iluminación, expresión, resolución, oclusión, etc.

2. Altavoz único multiescenario : contiene una gran cantidad de datos de un solo altavoz y múltiples escenarios, que se pueden utilizar para pruebas de escenarios cruzados y sesiones cruzadas, y está más cerca de las aplicaciones del mundo real.

3. Incompletitud de la modalidad : en algunos videoclips, solo una parte de la información de la modalidad es completa y observable, y hay situaciones en las que falta la modalidad, lo que lo hace adecuado para evaluar el rendimiento de los sistemas AVPR en condiciones complejas reales, que también son situaciones donde la tecnología multimodal se espera que proporcione el mayor valor.

Tabla 1 Descripción general de los datos de CN-Celeb-AV

imagen

Tabla 2 Segmentación de escena CN-Celeb-AV

imagen

CN-Celeb-AV tiene dos conjuntos de evaluación de referencia:

1. Conjunto de evaluación de "modo completo" CNC-AV-Eval-F: la mayoría de los clips de audio y video contienen información completa de audio e información de video.

2. Conjunto de evaluación "Modo incompleto" CNC-AV-Eval-P: contiene una gran cantidad de clips de audio y video donde la información de audio o video se daña o se pierde por completo. Por ejemplo, el rostro y/o la voz de la persona objetivo pueden desaparecer brevemente, corromperse con el ruido o quedar completamente inutilizables.

verificación preliminar

Utilizamos el modelo de reconocimiento de huellas de voz de código abierto ECAPA-TDNN, el modelo de detección de rostros RetinaFace y el modelo de reconocimiento de rostros InsightFace para llevar a cabo una serie de experimentos comparativos en los conjuntos de evaluación MOBIO [5], VoxCeleb [6] y CN-Celeb-AV. Los resultados experimentales se muestran en la Tabla 3 a continuación.

Tabla 3 Resultados experimentales

imagen

Primero, tanto los sistemas unimodales como los multimodales logran un buen desempeño en los conjuntos de evaluación MOBIO y VoxCeleb1. Esto es de esperar ya que la información de la modalidad está casi completa en ambos conjuntos de datos. Por el contrario, en los dos conjuntos de evaluación CNC-AV-Eval, el rendimiento de las modalidades de audio y visual es mucho peor, principalmente debido a los datos más complejos en CNC-AV-Eval. Esto demuestra que la tecnología de identificación convencional actual, ya sea de audio o visual, aún no puede hacer frente a la complejidad del mundo real.

En segundo lugar, el sistema multimodal supera sistemáticamente al sistema unimodal en todos los conjuntos de evaluación, lo que destaca los beneficios de la información multimodal. Aun así, sin embargo, el rendimiento del sistema multimodal en los dos conjuntos de evaluación CNC-AV-Eval sigue siendo deficiente, lo que sugiere que se necesita más investigación sobre la identificación multimodal en escenarios complejos.

Descargar

  • dirección de papel

    • https://arxiv.org/abs/2305.16049

  • aplicación de datos

    • http://cnceleb.org/

  • herramienta de colección

    • https://github.com/smile-luchador/CN-Celeb3_collector

  • sistema de referencia

    • https://gitlab.com/csltstu/sunine/-/tree/cncav/

referencias

[1] SO Sadjadi, CS Greenberg, E. Singer, DA Reynolds et al., "La evaluación de reconocimiento de oradores audiovisuales del NIST de 2019", en Odyssey, 2020, págs. 259–265.

[2] SO Sadjadi, C. Greenberg, E. Singer, L. Mason y D. Reynolds, "La evaluación de reconocimiento de oradores del NIST de 2021", preimpresión de arXiv arXiv:2204.10242, 2022. 

[3] L. Li, R. Liu, J. Kang, Y. Fan, H. Cui, Y. Cai, R. Vipperla, TF Zheng y D. Wang, “CN-Celeb: reconocimiento de oradores de varios géneros, Comunicación del habla, vol. 137, págs. 77–91, 2022.

[4] Fan, J. Kang, L. Li, D. Wang et al., "CN-Celeb: un desafiante conjunto de datos de reconocimiento de hablantes chinos", en ICASSP. IEEE, 2020, págs. 7604–7608.

[5] C. McCool, S. Marcel, A. Hadid, M. Pietikainen ¨ et al., “Reconocimiento bimodal de personas en un teléfono móvil: uso de datos de teléfonos móviles”, en ICMEW. IEEE, 2012, págs. 635–640.

[6] A. Nagrani, JS Chung y A. Zisserman, "VoxCeleb: un conjunto de datos de identificación de oradores a gran escala", en INTERSPEECH, 2017, págs. 2616–2620.

Supongo que te gusta

Origin blog.csdn.net/weixin_48827824/article/details/132086741
Recomendado
Clasificación