VQA para el patrimonio cultural (basado en el conjunto de datos de ArtPedia)

Papel VQA en el campo del arte y la lectura del patrimonio cultural

Respuesta visual a preguntas para el patrimonio cultural



prefacio

Aún así, la forma más frecuente de interactuar con pinturas y esculturas es tomar fotografías. Sin embargo, la imagen en sí misma solo puede transmitir la estética de la obra de arte, ya que carece de la información necesaria para comprenderla y apreciarla por completo. A menudo, este conocimiento adicional proviene tanto de la obra de arte en sí (y, por lo tanto, de la imagen que la representa), como de fuentes externas de conocimiento, como las hojas de información. El primero puede inferirse mediante algoritmos de visión por computadora, mientras que el segundo requiere datos más estructurados para emparejar contenido visual con información relevante. Independientemente de su origen, dicha información aún debe transmitirse efectivamente al usuario. Una tendencia emergente popular en la visión por computadora es la respuesta visual a preguntas (VQA), donde los usuarios pueden hacer preguntas a través del lenguaje natural, interactuar con redes neuronales y obtener respuestas sobre contenido visual. Creemos que esta será la evolución de las audioguías inteligentes para visitas a museos y la navegación sencilla de imágenes en teléfonos inteligentes personales. Esto convierte al clásico audio tour en un entrenador personal inteligente con el que los visitantes pueden interactuar pidiéndoles explicaciones enfocadas en intereses específicos. Los beneficios de esto son dos: por un lado, se reducirá la carga cognitiva del visitante, limitando el flujo de información a lo que el usuario realmente quiere escuchar; por otro lado, sugiere la forma más natural de interactuar con la guía, propicia para la participación.
inserte la descripción de la imagen aquí

método

Respuesta visual a preguntas con preguntas visuales y contextuales

La idea principal de este trabajo es clasificar el tipo de pregunta de entrada (visual o contextual) para que pueda ser respondida por el submodelo más adecuado. Confiamos en los clasificadores de preguntas para comprender si la pregunta involucra solo las características visuales de la imagen o si se requiere una fuente externa de información para proporcionar la respuesta correcta. Luego, dependiendo de la salida del clasificador, la pregunta se envía a un modelo VQA o QA. En ambos casos, el problema debe analizarse y comprenderse, pero el uso de las dos arquitecturas diferentes está impulsado por la necesidad de tratar con diferentes fuentes de información adicional. Si se visualiza la pregunta, la respuesta se genera a partir de la imagen, mientras que si la pregunta es sensible al contexto, la respuesta se genera utilizando una descripción textual externa.

La canalización general (consulte la Figura 1) que utiliza nuestro método para responder una pregunta es la siguiente:
(i) Clasificación de preguntas. Las preguntas se dan como entrada al módulo clasificador de preguntas, que determina si la pregunta es contextual o visual.
(ii) [Visualización] Respuesta a preguntas. Según el tipo de pregunta prevista, se activará el módulo correspondiente para generar la respuesta. (a) Si la pregunta es sensible al contexto, la pregunta se proporciona como entrada a un módulo de respuesta a preguntas, que acepta la entrada y también información externa útil para responder la pregunta. El sistema produce una respuesta de salida basada únicamente en esta información externa.
(b) Si se visualiza la pregunta, alimente la pregunta y la imagen como entrada al módulo de respuesta de preguntas visuales. El sistema genera una respuesta de salida basada en el contenido de la imagen.

Módulo clasificador de preguntas

El módulo clasificador de preguntas consta de módulos Bert[5] para la clasificación de texto. BERT aprovecha Transformer [21], un mecanismo de atención que aprende las relaciones contextuales entre palabras (o subpalabras) en el texto. El Transformer se entrena bidireccionalmente para obtener una comprensión más profunda del contexto y el flujo del idioma. Este modelo de lenguaje es muy versátil, ya que puede usarse para diferentes tareas, como la clasificación de textos, la predicción de la siguiente palabra en una oración, la respuesta a preguntas y el reconocimiento de entidades. Al agregar una capa de clasificación sobre la salida del Transformador, este modelo se convierte en una arquitectura de clasificación de preguntas. La pregunta de entrada se representa como la suma de tres incrustaciones diferentes: incrustaciones de tokens, incrustaciones de segmentos e incrustaciones posicionales. Además, se agregaron dos fichas especiales al principio y al final de la pregunta.

Módulo de respuesta a preguntas contextuales

El modelo para la tarea de respuesta a preguntas es otro módulo de Bert que se enfoca en esta tarea. En este caso, el módulo acepta tanto una pregunta como una descripción textual como entrada. Dado que este sistema utiliza información textual para responder preguntas, el texto debe contener información relevante para generar respuestas adecuadas.

Módulo de respuesta a preguntas visuales

La arquitectura del módulo de respuesta a preguntas visuales es similar a la utilizada en el enfoque de abajo hacia arriba de arriba hacia abajo de Anderson et al. Aquí, las regiones sobresalientes de las imágenes son extraídas por Faster R-CNN [18] previamente entrenado en el conjunto de datos Visual Genome [12]. Las palabras de las preguntas están representadas por incrustaciones de guantes [17], y luego las preguntas se codifican con una unidad recurrente cerrada (GRU), comprimiendo cada pregunta en un descriptor de tamaño fijo. Se establece un mecanismo de atención entre la pregunta de codificación y las regiones de imagen sobresalientes para sopesar las regiones candidatas útiles para responder la pregunta. La representación de la región ponderada y la representación de la pregunta se proyectan luego en un espacio común y se concatenan mediante un producto de elementos. Finalmente, la representación conjunta pasa por dos capas completamente conectadas y una activación softmax que produce la respuesta de salida.

Resultados experimentales

Para evaluar el rendimiento del modelo, llevamos a cabo diferentes experimentos. Medimos el rendimiento del modelo analizando cada componente de forma independiente.

Clasificador de preguntas Clasificador de preguntas

Entrenamos el módulo clasificador de preguntas con preguntas de los conjuntos de datos OK-VQA y VQA v2. Extraemos una cantidad de preguntas visuales de VQA v2 igual a la cantidad de preguntas que requieren conocimiento externo en OK-VQA. El conjunto de datos resultante se divide en conjuntos de entrenamiento y prueba. El clasificador de preguntas debe comprender a partir de la estructura de la pregunta si la respuesta está relacionada con el contenido visual. Este es un clasificador genérico independiente del dominio de la tarea. De hecho, VQA v2 y OK-VQA contienen imágenes genéricas, mientras que a nosotros nos interesan las aplicaciones en el dominio del patrimonio cultural. Al evaluar el conjunto de datos VQA/OK-VQA y un nuevo conjunto de datos que consiste en un subconjunto de Artpedia [20], demostramos la efectividad de nuestro método y su capacidad de transferencia al dominio del patrimonio cultural. Dado que este conjunto de datos no contiene preguntas sino solo imágenes y descripciones, extrajimos 30 imágenes de este conjunto de datos y les agregamos un número variable de preguntas visuales y contextuales (de 3 a 5 para ambas categorías). La precisión de nuestro módulo clasificador de preguntas se muestra en la Tabla 1. Podemos observar que predice correctamente el tipo de pregunta en la mayoría de los casos.

Respuesta a preguntas contextuales

Probamos nuestro módulo de respuesta a preguntas en un subconjunto de Artpedia que contiene 30 imágenes anotadas. En particular, probamos la precisión de nuestro módulo en tres experimentos diferentes: una prueba de preguntas contextuales, una prueba de preguntas visuales y una prueba de preguntas visuales y contextuales simultáneas. Tenga en cuenta que los resultados de los módulos de visión y contexto son diferentes, ya que VQA se considera como un problema de clasificación, mientras que para QA, a partir de los resultados que se muestran en la Tabla 2, podemos inferir que nuestro módulo de respuesta a preguntas funciona bien para preguntas de contexto. peores resultados para problemas visuales. Esto se evidencia por el hecho de que los problemas visuales se refieren a detalles visibles de pinturas que no se pueden describir en la oración visual de ArtPedia.

Respuesta Visual a Preguntas

De manera similar a las pruebas realizadas para el módulo de respuesta a preguntas, evaluamos el módulo de respuesta a preguntas visuales en preguntas visuales y contextuales. La Tabla 2 muestra los resultados de nuestro modelo visual de respuesta a preguntas. En cambio, podemos observar en el módulo de respuesta a preguntas que el modelo se desempeña bien en preguntas visuales pero no puede responder correctamente a preguntas contextuales. Esto se debe al hecho de que las preguntas contextuales requieren conocimiento externo (por ejemplo, autor, año), que no se puede obtener mediante un motor de respuesta a preguntas puramente visual.

Modelo completo Tubería completa

Finalmente, combinamos las características de todos los módulos y probamos preguntas de visión y contexto, logrando una precisión de 0.570. Gracias al clasificador de preguntas, la canalización completa puede distinguir correctamente entre preguntas visuales y contextuales. El módulo de respuesta a preguntas visuales y el módulo de respuesta a preguntas reciben como entrada casi cualquier pregunta que puedan responder (preguntas contextuales para el módulo de respuesta a preguntas y preguntas de visualización para el módulo de respuesta a preguntas visuales). Por lo tanto, el modelo general supera a los dos módulos de respuesta única. La Figura 2 muestra algunos resultados cualitativos para los tres componentes de la tubería. Estos componentes manejan la mayoría de los problemas correctamente, pero se pueden observar algunas condiciones de falla comunes. Por ejemplo, un modelo de pregunta y respuesta puede agregar detalles a la respuesta que no están presentes en la verdad fundamental, y un modelo visual de pregunta y respuesta puede confundir algunos elementos de una pintura con objetos similares.

Resumir

En este artículo, proponemos un método visual de respuesta a preguntas en el dominio del patrimonio cultural. Hemos abordado dos cuestiones importantes: la necesidad de procesar imágenes contenidas y conocimiento contextual, y la falta de disponibilidad de datos. Nuestro modelo propuesto combina el poder de los modelos VQA y QA, basándose en un clasificador de preguntas para predecir si se refiere a contenido visual o contextual. Para evaluar la eficacia de nuestro modelo, anotamos un subconjunto del conjunto de datos de ArtPedia con pares de preguntas y respuestas visuales y sensibles al contexto.

resumen del lector

Siento que este artículo ha cogido el calor del arte VQA.
En pocas palabras, antes de responder, primero clasifique las preguntas y luego realice las respuestas VQA y QA respectivamente para obtener las respuestas.
El módulo anterior se ejecutó en tres conjuntos de datos. El resultado es que el efecto de la tarea de clasificación de preguntas es bueno y el efecto de la respuesta a VQA es bueno, pero el efecto de la tarea de control de calidad no es bueno (es decir, la el efecto de la respuesta abierta es solo soso)

Supongo que te gusta

Origin blog.csdn.net/weixin_44845357/article/details/126896883
Recomendado
Clasificación