论文解读：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images - 代码天地

论文解读：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

其他 2018-12-09 14:28:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u014248127/article/details/84493974

这是关于VQA问题的第三篇系列文章，这篇文章是一篇比较经典的文章，所以跟大家分享。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images。

1，想法

模型以CNN和LSTM为基础，以一种新的使用方式，设计了一个预测结果长度可变的模型。该模型将视觉问答任务视为结合图像信息作为辅助的sequence to sequence任务。

2，模型

模型：首先由一个预训练好的深度CNN模型抽取出要回答的图片特征，然后将图片特征和转化为词向量的问题词一起送入LSTM网络，在每次送入一个问题词的同时将图片特征送入网络，直到所有的问题特征信息抽取完毕。接下来用同一个LSTM网络产生答案，直至产生结束符($)为止。该模型的训练过程是结合图像特征的LSTM网络的训练以及词向量的生成器的训练。
在这里插入图片描述在这里插入图片描述

a.图像特征：

用一个训练好的cnn提取图像特征，然后把这个图像特征送入每一个LSTM网络的输入中。

b.文本特征，以及LSTM网络的输入

在这里插入图片描述
文本采用词向量的输入，即每个词的词向量。训练时，文本特征包括问题和答案：

测试时，文本特征包括，问题和前一个词的预测答案：

c.采用概率最大的方式预测答案

在这里插入图片描述
损失函数：只考虑了答案预测部分的损失函数，即问好前面的部分不考虑损失函数。

3.论文的贡献

论文提出了seq2seq的方式，长生变长的的答案
论文提出了两个新的评估指标，相亲见原论文

猜你喜欢

转载自blog.csdn.net/u014248127/article/details/84493974

论文解读：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

医学图像拼接论文（一）Automatic Stitching of Medical Images Using Feature Based Approach

【论文阅读】Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of

Questions about UIUC and USC

Some Questions about MapReduce

Some questions about docker

开放域问答论文-Generator-Retriever-Generator: A Novel Approach to Open-domain Question Answering

论文阅读：Event Extraction by Answering (Almost) Natural Questions 基于自然问答的事件抽取（附源码地址）

Bootstrap your own latent ：A new approach to self-supervised Learning（BYOL）（论文解读）

Some Interview Questions About Python

Frequently Asked Questions About CC

论文阅读和分析：Watch, attend and parse An end-to-end neural network based approach to HMER

. Adding borders to your images

Question Answering over Freebase via Attentive RNN with Similarity Matrix based论文解读

论文解读：Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...

论文解读：Question Answering over Freebase with Multi-Column Convolutional Neural Networks

TCP Raw API questions about efficiency and threads

论文阅读 Question Answering

一篇关于问答系统论文的阅读笔记（思维导图形式）（Novel Answer Ranking Approach in Question Answering System Using Compositional Distributional Semantic Model）

Pytorch:info about your GPU

论文总结Classification of Hyperspectral Images Based on Multiclass Spatial–Spectral GAN

论文翻译：Text-based Image Editing for Food Images with CLIP

【论文阅读】Ensembling Neural Networks for Digital Pathology Images Classification and Segmentation

论文阅读 | Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

Question Answering over Freebase with Multi-Column Convolutional Neural Networks【论文笔记】

How To Ask Questions The Smart Way

About search your address on MKMapView.

Follow your heart (98)--- discussion with 天凉 about ...

Users Don’t Care About Your Design

interview: Tell Me About Your Work Experience

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)