论文笔记 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/pku_langzi/article/details/82793555

文章的主要贡献点如下:值得学习的是,文章的写作挺好的。
在这里插入图片描述
在这里插入图片描述
文章的一个主要思想就是modular neural network,通过学习关于question与image的多模态(multimodal)与多方面(multifaceted)的表征,在VQA1.与VQA2.0上取得不错效果。

如上图所示,主要分为6个module
(1)对resnet提出的 7 7 512 7*7*512 做question guided的attention,得到 r v r^v
(2)object detection检测出的物体做attention,得到 r o r^o ,pretrained on existing work.
(3)object classification,其类别标签文本,得到 r c r^c ,pretrained on COCO.
(4)scene classification,其类别标签文本,得到 r s r^s , pretrained on place365.
(5)face detection做attention,得到 r f r^f , pretrained on existing face work.
(6)face根据gender,emotion,age分类标签,得到 r a r^a

每个module的输出分别于question进行bilinear交互,最终拼接成一个向量 g g ,作为分类的输入。

Ablaion study
在这里插入图片描述

Comparing with state of the art
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/pku_langzi/article/details/82793555