论文笔记 Visual Question Answering with Memory-Augmented Networks（CVPR2018) - 代码天地

论文笔记 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

其他 2018-12-11 00:52:44 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/pku_langzi/article/details/81196298

这是沈春华老师小组的一篇文章。

这篇文章的出发点是：目前的VQA问题，由于answer数量的有限性，因此转化为一种分类问题，但由于部分answer出现

的频次较低（比如上图中的黄瓜），为了提高整体的分类准确率，往往进行分类的时候，将频次低的answer进行舍弃，

如取answer出现频次高的top1000,。基于这种现象，本文提出Memory-Augmented Network来处理这样一种长尾效应。

这里写图片描述

方法简介

这里写图片描述
（1）对于图像与question的分别特征提取，并没有太多的新意，对于两种特征也采用了sequential co-attention机制，但

这种attention机制也是借鉴的NIPS2016中一篇VQA的方法。

（2）文章主打的Memory-Augmented network是在原来的memory network上进行改进，主要有两点别：其利用LSTM自

身特性，形成一种天然的internal memory其也设计了一种external memory，使得LSTM成为一种外部记忆机制的控制器

文章由于处理的问题是出现频次少的answer带来的长尾效应，因此主要落点放在了memory写机制的创新上，文中的写机

制能够在memory中极少用到的位置与经常用到的位置中达到一种平衡，来缓解长尾效应。具体实现细节，不再赘述，但

是这种memory的读写，既借鉴了操作系统内存的读写，又可与推理引擎中的working memory联系，又很好地利用深度

学习的记忆机制来实现，很有参考借鉴意义。

参考原文：Visual Question Answering with Memory-Augmented Networks

猜你喜欢

转载自blog.csdn.net/pku_langzi/article/details/81196298

论文笔记 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

论文笔记 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

【CVPR2018】Learning Visual Knowledge Memory Networks For Visual Question Answering【VQA视觉知识记忆网络】

Learning Visual Knowledge Memory Networks for Visual Question Answering论文解读

Visual Question Answering with Memory

MCAN：Deep Modular Co-Attention Networks for Visual Question Answering——2019 CVPR 论文笔记

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

Retrieval Augmented Visual Question Answering with Outside Knowledge

论文笔记 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Question Answering with Subgraph Embeddings【论文笔记】

【论文笔记】Question Answering with Subgraph Embeddings

论文笔记：Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

Question Answering over Freebase with Multi-Column Convolutional Neural Networks【论文笔记】

Gated Self-Matching Networks for Reading Comprehension and Question Answering论文笔记

Visual Question Answering in Tensorflow实战

VQA（Visual Question Answering）技术

论文阅读：Learning Visual Question Answering by Bootstrapping Hard Attention

论文解读：Where To Look: Focus Regions for Visual Question Answering

论文解读：A Focused Dynamic Attention Model for Visual Question Answering

Learning Conditioned Graph Structures for Interpretable Visual Question Answering论文解读

[VQA论文阅读]RUBi Reducing Unimodal Biases for Visual Question Answering

论文阅读 Question Answering

《iVQA: Inverse Visual Question Answering》读书笔记

DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING阅读理解论文阅读笔记

【笔记】论文阅读 | One shot learning with memory-augmented neural networks

CVPR 2018 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Discriminative Information Retrieval for Question Answering Sentence Selection论文笔记

论文解读：Stacked Attention Networks for Image Question Answering

《Stacked Attention Networks for Image Question Answering》论文解读与实验

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)