论文笔记 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017) - 代码天地

论文笔记 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

其他 2018-12-11 00:51:59 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/pku_langzi/article/details/82793555

文章的主要贡献点如下：值得学习的是，文章的写作挺好的。
在这里插入图片描述

文章的一个主要思想就是modular neural network，通过学习关于question与image的多模态(multimodal)与多方面(multifaceted)的表征，在VQA1.与VQA2.0上取得不错效果。

如上图所示，主要分为6个module
（1）对resnet提出的 $7*7*512$ 做question guided的attention，得到 $r^v$
（2）object detection检测出的物体做attention，得到 $r^o$ ，pretrained on existing work.
（3）object classification，其类别标签文本，得到 $r^c$ ，pretrained on COCO.
（4）scene classification，其类别标签文本，得到 $r^s$ , pretrained on place365.
（5）face detection做attention，得到 $r^f$ , pretrained on existing face work.
（6）face根据gender,emotion,age分类标签，得到 $r^a$

每个module的输出分别于question进行bilinear交互，最终拼接成一个向量 $g$ ，作为分类的输入。

Ablaion study
在这里插入图片描述

Comparing with state of the art
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/pku_langzi/article/details/82793555

论文笔记 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】

论文笔记 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

Learning Visual Knowledge Memory Networks for Visual Question Answering论文解读

VideoQA论文阅读笔记——TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

【论文阅读笔记】SCR: Self-Critical Reasoning for Robust Visual Question Answering

论文阅读：Learning Visual Question Answering by Bootstrapping Hard Attention

Learning Conditioned Graph Structures for Interpretable Visual Question Answering论文解读

Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question Answering论文解读

视频问答与推理(Video Question Answering and Reasoning)——论文调研

Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》笔记

Visual Question Answering with Memory

论文笔记 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

MCAN：Deep Modular Co-Attention Networks for Visual Question Answering——2019 CVPR 论文笔记

Question Answering with Subgraph Embeddings【论文笔记】

【论文笔记】Question Answering with Subgraph Embeddings

Visual Question Answering in Tensorflow实战

VQA（Visual Question Answering）技术

论文解读：Where To Look: Focus Regions for Visual Question Answering

论文解读：A Focused Dynamic Attention Model for Visual Question Answering

[VQA论文阅读]RUBi Reducing Unimodal Biases for Visual Question Answering

论文阅读 Question Answering

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

《iVQA: Inverse Visual Question Answering》读书笔记

Paraphrase-Driven Learning for Open Question Answering阅读笔记

Discriminative Information Retrieval for Question Answering Sentence Selection论文笔记

Retrieval Augmented Visual Question Answering with Outside Knowledge

【CVPR2018】Learning Visual Knowledge Memory Networks For Visual Question Answering【VQA视觉知识记忆网络】

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)