《iVQA: Inverse Visual Question Answering》读书笔记 - 代码天地

《iVQA: Inverse Visual Question Answering》读书笔记

编程语言 2018-08-04 00:01:41 阅读次数: 0

《iVQA: Inverse Visual Question Answering》读书笔记

一、iVQA介绍
VQA是根据image、question生成关于image的答案，而iVQA是VQA的逆过程，给出一个answer、image生成与之相关的question。
二、iVQA面临的挑战

（1） iVQA模型利用问题偏差的可能性可能小于VQA通过答案偏差得分高的范围（问题偏差较少，利用它比分类答案更难）；
（2）与VQA中的问题相比，答案本身在iVQA中提供了非常稀疏的线索。因此，在iVQA中单独从答案中推断问题的机会可能少于在VQA中单独从问题中推断出答案的机会。因此，iVQA任务更依赖于理解图像内容；
（3）从知识表示和推理的角度来看，iVQA可以提供测试更复杂的推理策略的机会，例如反事实推理。
三、文章的贡献
（1）新颖的iVQA问题被引入作为高级多模态视觉语言理解的替代挑战；
（2）我们提出了一种基于多模态动态关注的iVQA模型；
（3）我们提出了一个基于问题排名的iVQA评估方法，有助于诊断不同模型的优缺点；
（4）作为VQA的双重问题，我们表明iVQA有可能帮助提高VQA性能。
四、实验模型
这里写图片描述
所需解决问题的定义：

模型共包括3部分

1. Image Encoder
从给定的image中提取局部和全局信息，使用ResNet-152模型计算的res5c特征用作局部特征，得到2048*14*14，2028表示通道数；全局信息利用image caption中最常用的1000个语义概念作为image的全局信息
2. Answer Encoder
使用具有512个单元的LSTM，将final hidden state和cell state的串联作为答案a的表示
3. Question decoder
Question decoder部分包括Multi-modal attention
Dynamic multi-modal attention
- Initial glimpse
这里写图片描述
表示从image中提取的全局信息，它捕获可能与问题相关的1-gram信息；编码的答案a被视为文本提示，其确定目标问题的可能的初始单词的集合。
- Encoding of partial question

- Multi-modal attention network
为了获得部分问题 - 答案上下文，将部分问题编码ht和答案编码a融合为：
这里写图片描述

- Word predictor

猜你喜欢

转载自blog.csdn.net/jiang6869732/article/details/81392761

《iVQA: Inverse Visual Question Answering》读书笔记

Visual Question Answering with Memory

Visual Question Answering in Tensorflow实战

VQA（Visual Question Answering）技术

Multi-Relational Question Answering from Narratives读书笔记

Retrieval Augmented Visual Question Answering with Outside Knowledge

Learning Visual Knowledge Memory Networks for Visual Question Answering论文解读

Question Condensing Networks for Answer Selection in Community Question Answering读书笔记

论文笔记 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

论文阅读：Learning Visual Question Answering by Bootstrapping Hard Attention

论文解读：Where To Look: Focus Regions for Visual Question Answering

论文解读：A Focused Dynamic Attention Model for Visual Question Answering

Learning Conditioned Graph Structures for Interpretable Visual Question Answering论文解读

[VQA论文阅读]RUBi Reducing Unimodal Biases for Visual Question Answering

Denoising Distantly Supervised Open-Domain Question Answering读书笔记

Efficient and Robust Question Answering from Minimal Context over Documents读书笔记

《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》笔记

论文笔记 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

论文笔记 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

VideoQA论文阅读笔记——TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

MCAN：Deep Modular Co-Attention Networks for Visual Question Answering——2019 CVPR 论文笔记

深度学习神经网络学习笔记-多模态方向-09-VQA: Visual Question Answering

【论文阅读笔记】SCR: Self-Critical Reasoning for Robust Visual Question Answering

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

Did the Model Understand the Question?读书笔记

【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】

Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)