Documento de conferencia principal de ACM MM | Investigación sobre la fusión de información "lenguaje-visual" en tareas de diálogo

 

El diálogo visual orientado a objetivos es una tarea relativamente nueva en el campo cruzado del "lenguaje de la visión", que requiere que la máquina complete objetivos específicos relacionados con la visión a través de múltiples rondas de diálogo. Esta tarea tiene tanto importancia para la investigación como valor de aplicación.

 

Hace unos días, el equipo del profesor Wang Xiaojie de la Universidad de Correos y Telecomunicaciones de Beijing colaboró ​​con el equipo del Centro de PNL de la plataforma de inteligencia artificial de Meituan. El artículo de investigación "Estimador de estado visual basado en respuestas para el diálogo visual orientado a objetivos-commentCZ" sobre el objetivo -Tarea de diálogo visual orientada a la participación se ubicó entre las mejores en el campo multimedia internacional Admisión a la conferencia ACM MM2020.

Este documento comparte los últimos avances en el diálogo visual orientado a objetivos, es decir, se propone un estimador de estado visual impulsado por la respuesta (ADVSE) para fusionar la información del historial del diálogo y la información de la imagen en el diálogo visual. El mecanismo de atención de enfoque basado en respuestas (ADFA) puede fortalecer eficazmente la información de respuesta, y el mecanismo de fusión de información visual condicional (CVIF) se utiliza para seleccionar de forma adaptativa información global y diferencial. El estimador se puede utilizar no solo para generar preguntas, sino también para responder preguntas. Los resultados experimentales de GuessWhat?!, Un conjunto de datos públicos internacionales para el diálogo visual, muestran que el modelo ha alcanzado el nivel de liderazgo actual en la generación y respuesta de preguntas.

antecedentes

Un buen modelo de diálogo visual no solo necesita comprender la información de los dos modos de escena visual y diálogo en lenguaje natural, sino que también debe seguir una cierta estrategia razonable para lograr el objetivo lo antes posible. Al mismo tiempo, las tareas de diálogo visual orientadas a objetivos tienen escenarios de aplicación más ricos. Por ejemplo, asistentes inteligentes, robots de recolección interactivos, filtración de grandes cantidades de información de medios visuales a través del lenguaje natural, etc.

Figura 1 Diálogo visual orientado a objetivos

 

Estado de la investigación y análisis

Para llevar a cabo diálogos coherentes con el contenido visual y orientados a objetivos, los agentes de IA deben ser capaces de aprender estrategias de diálogo y representaciones de diálogo multimodal sensibles a la información visual. Hay muchos trabajos relacionados sobre el aprendizaje de estrategias de diálogo. Por ejemplo, Strub et al. [1] propusieron primero el uso del aprendizaje por refuerzo para explorar estrategias de diálogo, y el trabajo posterior se centró en el diseño de recompensas [2, 3] o la selección de acciones [4, 5]. Sin embargo, la mayoría de ellos usa una forma simple de representar el diálogo multimodal, codificando respectivamente dos datos modales, a saber, la característica de lenguaje codificada por RNN y la característica visual codificada por CNN de preentrenamiento, y empalmarlos de pie.

Una buena representación del diálogo multimodal es la piedra angular del aprendizaje de estrategias. Con el fin de mejorar la representación del diálogo multimodal, los investigadores han propuesto varios mecanismos de atención [6, 7, 8], mejorando así la interacción multimodal. Aunque se ha avanzado mucho, todavía existen algunos problemas importantes.

  1. En términos de codificación de idiomas, ninguno de los métodos existentes de codificación de idiomas puede distinguir entre diferentes respuestas (Respuesta). Las respuestas generalmente solo se codifican después de la Pregunta, porque la Respuesta es solo una palabra de Sí o No, y la Pregunta contiene palabras más largas Cadena, por lo tanto, el papel de Responder es muy débil. Pero de hecho, la respuesta de Answer determina en gran medida la dirección de cambio del área de enfoque de la imagen de seguimiento y también determina la dirección de desarrollo del diálogo. La respuesta es Sí y No conducirá a direcciones de desarrollo completamente diferentes. Por ejemplo, en el ejemplo de encontrar el objeto de destino a través del diálogo en la Figura 1, cuando la respuesta a la primera pregunta "¿Es un jarrón?" Es "Sí", el interrogador seguirá prestando atención al jarrón y preguntará sobre el características que pueden distinguir mejor varios jarrones; cuando la respuesta a la tercera pregunta "¿Es la parte roja?" es "No", el interlocutor ya no presta atención al jarrón rojo, sino que hace preguntas sobre los objetos candidatos restantes.

  2. La situación en términos de visión y fusión es similar. Los métodos de codificación visual existentes utilizan codificación estática y permanecen sin cambios durante el proceso de diálogo, empalmados directamente con codificación de lenguaje que cambia dinámicamente, o utilizan codificación de garantía de calidad para guiar el mecanismo de atención del contenido visual. Por lo tanto, es imposible distinguir efectivamente entre diferentes respuestas. Como se mencionó anteriormente, cuando las respuestas de Respuesta son diferentes, se producirán cambios muy diferentes en el área de interés de la imagen. Generalmente, cuando la respuesta es "sí", la imagen se enfocará en el objeto actual y prestará más atención. a sus características. Cuando la respuesta es "Si no, es posible que deba enfocarse en toda el área de la imagen nuevamente para encontrar nuevos candidatos posibles.

Estimador de estado visual basado en respuestas

Con este fin, este documento propone un estimador de estado visual impulsado por la respuesta, como se muestra en la Figura 2 a continuación. El nuevo marco incluye la actualización de la atención impulsada por la respuesta (ADFA-ASU) y el mecanismo de fusión condicional de información visual (CVIF) para resolver los dos anteriores problema.

Figura 2 Diagrama de marco del estimador de estado visual basado en respuestas

 

La actualización de la atención impulsada por la respuesta primero utiliza una función de umbral para polarizar la atención guiada por la ronda actual de la pregunta, y luego, basándose en las diferentes respuestas de la pregunta para invertir o mantener la atención, obtenga la influencia de la pregunta-respuesta actual en el estado del diálogo. y acumular En cuanto al estado de diálogo, este método enfatiza efectivamente la influencia de Respuesta en el estado de diálogo; CVIF fusiona la información general de la imagen y la información de diferencia del objeto candidato actual bajo la guía del QA actual para obtener el estimado estado visual.

 

Actualización de atención basada en respuestas (ADFA-ASU) 

Mecanismo de fusión condicional de información visual (CVIF)

Estimador de estado visual basado en respuestas para la generación y respuesta de preguntas

ADVSE es un marco general para el diálogo visual orientado a objetivos. Por lo tanto, lo aplicamos al modelado de generación de preguntas (QGen) y respuesta (Guesser) en GuessWhat ?! Primero combinamos ADVSE con el codificador de historial de diálogo jerárquico clásico para obtener una representación de diálogo multimodal, y luego combinamos la representación de diálogo multimodal con el decodificador para obtener un modelo de generación de preguntas basado en ADVSE; combinamos la representación de diálogo multimodal con La combinación de clasificadores obtiene el modelo de respuesta basado en ADVSE.

Figura 3 Diagrama esquemático del estimador de estado visual basado en respuestas para la generación y respuesta de preguntas

 

Los resultados experimentales de GuessWhat?!, Un conjunto de datos públicos internacionales para el diálogo visual, muestran que el modelo ha alcanzado el nivel de liderazgo actual en la generación y respuesta de preguntas. Primero damos los resultados experimentales comparando ADVSE-QGen y ADVSE-Guesser con el último modelo.

Además, evaluamos el desempeño del uso combinado de ADVSE-QGen y ADVSE-Guesser. Finalmente, damos el contenido de análisis cualitativo del modelo. El código para nuestro modelo pronto estará disponible en ADVSE-GuessWhat .

Tabla 1 Comparación de rendimiento de tareas de QGen, el índice de evaluación es la tasa de éxito de la tarea

Tabla 2 Comparación del desempeño de la tarea Guesser, el índice de evaluación es la tasa de error

Figura 4 Ejemplo de análisis del cambio de atención impulsado por la respuesta durante la generación de preguntas

Figura 5 Muestra de generación de diálogo ADVSE-QGen

 

para resumir

Este artículo propone un estimador de estado visual basado en respuestas (ADVSE) para enfatizar la importante influencia de diferentes respuestas sobre la información visual en el diálogo visual orientado a objetivos. Primero, capturamos el impacto de la respuesta en la atención visual a través de la atención enfocada impulsada por la respuesta (ADFA), donde si mantener o mover la atención visual relacionada con el problema está determinado por las diferentes respuestas de cada ronda.

Además, en el mecanismo de fusión condicional de información visual (CVIF), proporcionamos dos tipos de información visual para diferentes estados de garantía de calidad y luego los fusionamos de acuerdo con la situación como una estimación del estado visual. Aplicando el ADVSE propuesto a la tarea de generación de preguntas y adivinación en Guesswhat?!, En comparación con los últimos modelos existentes de estas dos tareas, podemos obtener una mayor precisión y resultados cualitativos. En el seguimiento, exploraremos más a fondo la mejora potencial de usar ADVSE-QGen y ADVSE-Guesser al mismo tiempo.

referencias

[1] FlorianStrub, HarmdeVries, JérémieMary, BilalPiot, AaronC.Courville y Olivier Pietquin. 2017. Optimización de extremo a extremo de sistemas de diálogo basados ​​en objetivos y con base visual. En Conferencia Conjunta sobre Inteligencia Artificial.

[2] Pushkar Shukla, Carlos Elmadjian, Richika Sharan, Vivek Kulkarni, Matthew Turk y William Yang Wang. 2019. ¿Qué debo preguntar? Uso de recompensas conversacionalmente informativas para el diálogo visual orientado a objetivos. En las actas de la 57ª reunión anual de la Asociación de Lingüística Computacional. Asociación de Lingüística Computacional, Florencia, Italia, 6442–6451. https://doi.org/10.18653/v1/P19-1646

[3] JunjieZhang, QiWu, ChunhuaShen, JianZhang, JianfengLu y Antonvanden Hengel. 2018. Generación de preguntas visuales orientadas a objetivos a través de recompensas intermedias. En Actas de la Conferencia Europea sobre Visión por Computador.

[4] Ehsan Abbasnejad, Qi Wu, Iman Abbasnejad, Javen Shi y Anton van den Hengel. 2018. Un modelo de búsqueda activa de información para tareas de lenguaje y visión orientadas a objetivos. CoRR abs / 1812.06398 (2018). arXiv: 1812.06398 http://arxiv.org/abs/1812.06398.

[5] EhsanAbbasnejad, QiWu, JavenShi yAntonvandenHengel. 2018. ¿Qué debe saber? La incertidumbre como guía para hacer preguntas orientadas a objetivos. En Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. 4150–4159.

[6] Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu y Mingkui Tan. 2018. Puesta a tierra visual a través de la atención acumulada. En Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. 7746–7755.

[7] Tianhao Yang, Zheng-Jun Zha y Hanwang Zhang. 2019. Making History Matter: History-Advantage Sequence Training for Visual Dialog. En Actas de la Conferencia Internacional IEEE sobre Visión por Computador. 2561-2569.

[8] BohanZhuang, QiWu, ChunhuaShen, IanD. Reid y AntonvandenHengel. 2018. Atención paralela: un marco unificado para el descubrimiento de objetos visuales a través de diálogos y consultas. En Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. 4252–4261.

Sobre el Autor

Los autores de este artículo incluyen a Wang Xiaojie, Xu Zipeng, Feng Xiangqian, Yang Yushu, Jiang Huixing, Wang Zhongyuan, etc. Provienen del Centro de Ciencia y Tecnología Inteligente de la Escuela de Inteligencia Artificial de la Universidad de Correos y Telecomunicaciones de Beijing y el Equipo de Meituan Search y NLP Center.

Wang Xiaojie: Obtuvo un doctorado de la Universidad de Aeronáutica y Astronáutica de Beijing y un académico visitante en el Instituto de Ciencia y Tecnología de Nara, Japón. Actualmente es profesor, supervisor de doctorado, director del Centro de Ciencia y Tecnología Inteligentes de la Universidad de Correos y Telecomunicaciones de Beijing, subdirector del Centro de Investigación de Ingeniería de Redes de Información del Ministerio de Educación, jefe de disciplinas y especializaciones de inteligencia artificial en la Universidad de Beijing de Correos y telecomunicaciones, especialista en comprensión del lenguaje natural de la Sociedad de Inteligencia Artificial de China. Director del Comité, Director adjunto del Comité de Trabajo de Educación. La principal dirección de investigación es el procesamiento del lenguaje natural y la computación multimodal. Ha presidido y participado en más de 20 proyectos nacionales de investigación científica, publicado más de 200 artículos académicos y ganado el primer premio de logros de invención científica y tecnológica de China. Asociación de Invenciones.

---------- FIN ----------

Ofertas de trabajo

Meituan Search and NLP Department, reclutamiento a largo plazo de búsqueda, diálogo, ingenieros de algoritmos NLP, coordina Beijing / Shanghai, los estudiantes interesados ​​pueden enviar sus currículums a: [email protected] (por favor indique el título del correo electrónico: Search and NLP Department ).

Tal vez todavía quieras mirar

|  Práctica de MT-BERT en tareas de recuperación de texto

|  Exploración y práctica de BERT en la clasificación principal de la búsqueda de Meituan

|  Exploración y práctica de Meituan BERT

Supongo que te gusta

Origin blog.csdn.net/MeituanTech/article/details/109108420
Recomendado
Clasificación