Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN )

其他 2019-08-18 19:34:48 阅读次数: 0

作者提出了一种多模态循环神经网络(AlexNet / VGGNet +多模式层+ RNN)，用CNN提取图像特征，单词经过两层词输入到RNN中，最后将单词特征，图像特征，以及RNN的hidden一起输入到多模态层，经过Softmax生成下一个词的概率分布。RNN主要是为了保存句子前面的特征。
- 加入两层Embedding，比单层更有效学习单词的稠密表示
- 不使用循环层来存储视觉信息
- 图像特征与句子描述中的每个单词一起被输入到m-RNN模型

Key Point

大多数句子 - 图像多模态模型使用预先计算的词嵌入向量作为其模型的初始化，相比之下，作者随机初始化他们的单词嵌入层并从训练数据中学习它们。实验效果更好
通过对Flickr8K数据集的交叉验证，对超参数(如层尺寸和非线性激活函数的选择)进行调优，然后在所有的实验中进行固定。
以前的工作：将图像描述视作检索任务，首先提取句子和图像特征，将其嵌入共同的语义空间，计算图像和句子之间的距离。生成图像时，从句子数据库中检索距离最小的句子作为描述。这种方法不能自动生成丰富的描述
Benchmark datasets for Image Captioning: IAPR TC-12 ( Grubinger et al.(2006) ), Flickr8K ( Rashtchian et al.(2010) ), Flickr30K ( Young et al.(2014) ) and MS COCO ( Lin et al.(2014) ).

Model

input word 通过两个word embedding层，生成稠密向量表示\(w(t)\)，\(w(t)\) 同时被传递给 RNN 和 Multimodal
RNN 所做变换为\(r(t)=f_2(U_r\cdot{r(t-1)+w(t)})\) $r(t) = f_2(U_r \cdot r(t-1)+w(t))$ ，其中 $r(t)$ 是 \(t\) 时刻循环层的输出，\(f_2\) 是ReLU函数
右侧绿框中，输入图像经过 CNN 生成特征向量\(I\) ，\(I\) 与一并输入multimodal。multimodal 所做变换是 \(m(t)=g_2(V_m\cdot{w(t)+V_r\cdot{r(t)}+I})\),\(g_2(x)=1.7159\cdot{tanh(\frac{2}{3}x)}\)
\(m(t)\) 输入 softmax 层生成概率分布。至此，由input word 产生了一个 next word

猜你喜欢

转载自www.cnblogs.com/doragd/p/11373469.html

Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN )

Paper Reading - Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN ) ( ICLR 2015 ) ★

RNN(Recurrent Neural Networks)

Recurrent Neural Networks——RNN

RNN:The Unreasonable Effectiveness of Recurrent Neural Networks

RNN(Recurrent Neural Networks)和LSTM

Introduction to Recurrent Neural Networks

Recurrent Neural Networks 简述

Gated Recurrent Neural Networks

019 Recurrent Neural Networks

Deep Multimodal Subspace Clustering Networks

循环神经网络（RNN）Recurrent Neural Networks

On the difficulty of training Recurrent Neural Networks中RNN完美复现

循环神经网络(RNN, Recurrent Neural Networks)介绍

【转】RNN的神奇之处（The Unreasonable Effectiveness of Recurrent Neural Networks）

RNN(Recurrent Neural Networks)公式推导和实现

循环神经网络 RNN Recurrent Neural Networks 介绍

EleAtt-RNN: Adding Attentiveness to Neurons in Recurrent Neural Networks

RNN（ Recurrent Neural Networks循环神经网络）

Recurrent Neural Networks, LSTM, GRU

Recurrent Neural Networks by Example in Python

DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS论文翻译

Improving Deep Neural Networks

Neural Networks and Deep Learning

Efficient Deep Neural Networks

Deep Multimodal Subspace Clustering Networks 翻译

Recurrent Neural Networks for Emotion Recognition in Video

Multi-Dimensional Recurrent Neural Networks

sp5.1 Recurrent Neural Networks

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)