Investigación de preguntas y respuestas en video y tesis

Directorio de artículos

0. Introducción
1. ACM MM
2. CVPR
3. ICCV
4. AAAI

Tiempo de actualización-2019.12 primer borrador

0. Introducción

El primer paso para aprender la investigación previa a la tesis de VQA . Investigue la publicación de documentos en las principales conferencias de los últimos años para comprender el progreso en esta dirección, incluidos CVPR, ICCV, ECCV, ACM MM y AAAI . Después de eso, estoy listo para resumir los conjuntos de datos comúnmente utilizados y los métodos clásicos.

1. ACM MM

ACM MM es una importante conferencia internacional en el campo de la informática y la tecnología multimedia, que se centra en la integración y el procesamiento de la información de múltiples ángulos generada por diferentes medios digitales. El VQA es parte de sus multimedia de la comprensión del contenido de la materia allí (la comprensión del contenido multimedia ) La Visión y Lenguaje rama.

1.1 ACM MM 2019

Hay 5 estadísticas incompletas (incluyendo Video / Visual Pregunta Respuesta)

Título de tesis	Autor
Red de interacción múltiple con relación de objeto para VideoQA	Universidad de Zhejiang
Red de agregación aprendible con pérdida divergente para VideoQA	Universidad de Ciencia y Tecnología Electrónica
Red de conmutación de tubos con preguntas para VideoQA	Universidad de Ciencia y Tecnología de China
CRA-Net: red de atención de relaciones compuestas para control de calidad visual	Universidad de Ciencia y Tecnología Electrónica
Atención de aprendizaje basada en borrado para control de calidad visual	Instituto de Automatización, Academia China de Ciencias

1.2 ACM MM 2018

Hay 4 estadísticas incompletas (incluyendo Video / Visual Pregunta Respuesta)

Título de tesis	Unidad de autor
Explore el razonamiento de varios pasos en el video de preguntas y respuestas	Universidad de Tianjin
Adaptación rápida de parámetros para subtítulos de pocas imágenes y respuestas visuales a preguntas	Universidad del Sur de Ciencia y Tecnología
Atención de diferencia de objeto: una atención relacional simple para la respuesta visual de preguntas	Universidad de Correos y Telecomunicaciones de Beijing
Mejora de la respuesta visual a preguntas mediante el abandono	Instituto de Automatización, Academia China de Ciencias

1.3 ACM MM 2017

Hay 4 estadísticas incompletas (incluyendo Video / Visual Pregunta Respuesta)

Título de tesis	Unidad de autor
VideoQA a través del aprendizaje jerárquico en red de atención de doble nivel	Universidad de Zhejiang
VideoQA a través de la atención gradualmente refinada sobre la apariencia y el movimiento	Universidad de Zhejiang

2. CVPR

CVPR significa Conferencia sobre visión artificial y reconocimiento de patrones, y el nombre chino es Conferencia internacional sobre visión artificial y reconocimiento de patrones, que generalmente se celebra alrededor de junio de cada año.

2.1 CVPR 2019

Hay 12 estadísticas incompletas (incluyendo Video / Visual Question Answer), pero las basadas en video parecen ser una.

Título de tesis	Unidad de autor
Modelo de atención multimodal mejorado de memoria heterogénea para VideoQA	Instituto de investigación de Jingdong
MUREL: Razonamiento relacional multimodal para la respuesta visual a preguntas
OK-VQA: una pregunta visual que responde a un punto de referencia que requiere conocimiento externo
Redes de co-atención modulares profundas para responder preguntas visuales
Respuesta visual a preguntas como comprensión lectora
Dynamic Fusion con flujo de atención intramodal e intermodalidad para responder preguntas visuales
Consistencia del ciclo para respuestas visuales robustas
GQA: un nuevo conjunto de datos para el razonamiento visual del mundo real y la respuesta a preguntas compositivas
Red de memoria de atención progresiva para historia de película Pregunta Respuesta
Transferencia de aprendizaje a través de descubrimiento de tareas sin supervisión para responder preguntas visuales
Descubrimiento de sesgo explícito en modelos visuales de respuesta a preguntas
¡Contéstales a todos! Hacia modelos visuales universales de respuesta a preguntas

2.2 CVPR 2018

不完全统计有 15 篇（包括Video / Visual Question Answer），但是基于视频的好像就一篇

论文题目	作者单位
Motion-Appearance Co-Memory Networks for Video Question Answering
* Tips and Tricks for Visual Question Answering: Learnings From the 2017 Challenge
Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering
Learning Answer Embeddings for Visual Question Answering
Cross-Dataset Adaptation for Visual Question Answering
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering
Visual Question Generation as Dual Task of Visual Question Answering
Focal Visual-Text Attention for Visual Question Answering
Visual Question Answering With Memory-Augmented Networks
Visual Question Reasoning on General Dependency Tree
Differential Attention for Visual Question Answering
Learning Visual Knowledge Memory Networks for Visual Question Answering
IVQA: Inverse Visual Question Answering
Customized Image Narrative Generation via Interactive Visual Question Generation and Answering

2.3 CVPR 2017

不完全统计有 9 篇（包括Video / Visual Question Answer），没有基于视频的

论文题目	作者单位
Graph-Structured Representations for Visual Question Answering
Knowledge Acquisition for Visual Question Answering via Iterative Querying
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering
End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering
Empirical Evaluation of Visual Question Answering for Novel Objects
Multi-Level Attention Networks for Visual Question Answering
A Dataset and Exploration of Models for Understanding Video Data Through Fill-In-The-Blank Question-Answering
Making the v in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

3.3 CVPR 2016

不完全统计有 8 篇（包括Video / Visual Question Answer），没有基于视频的，而且看起来是刚起步

论文题目	作者单位
Stacked Attention Networks for Image Question Answering
Image Question Answering Using Convolutional Neural Network With Dynamic Parameter Prediction
Where to Look: Focus Regions for Visual Question Answering
Ask Me Anything: Free-Form Visual Question Answering Based on Knowledge From External Sources
MovieQA: Understanding Stories in Movies Through Question-Answering
Answer-Type Prediction for Visual Question Answering
Visual7W: Grounded Question Answering in Images
Yin and Yang: Balancing and Answering Binary Visual Questions

3. ICCV

ICCV 全称 International Conference on Computer Vision，中文名为国际计算机视觉大会，每两年在全世界范围内召开一次，录用率比较低，所以在业内评价较高，是三大CV顶会中公认级别最高的。

3.1 ICCV 2019

不完全统计有 5 篇（包括Video / Visual Question Answer）

论文题目	作者单位
Compact Trilinear Interaction for Visual Question Answering
Why Does a Visual Question Have Different Answers?
Scene Text Visual Question Answering
Multi-Modality Latent Interaction Network for Visual Question Answering
Relation-Aware Graph Attention Network for Visual Question Answering

3.2 ICCV 2017

不完全统计有 6 篇（包括Video / Visual Question Answer）

论文题目	作者单位
Learning to Reason: End-To-End Module Networks for Visual Question Answering
Structured Attentions for Visual Question Answering
Multi-Modal Factorized Bilinear Pooling With Co-Attention Learning for Visual Question Answering
An Analysis of Visual Question Answering Algorithms
MUTAN: Multimodal Tucker Fusion for Visual Question Answering
MarioQA: Answering Questions by Watching Gameplay Videos