Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN )

  • 作者提出了一种多模态循环神经网络(AlexNet / VGGNet +多模式层+ RNN),用CNN提取图像特征,单词经过两层词输入到RNN中,最后将单词特征,图像特征,以及RNN的hidden一起输入到多模态层,经过Softmax生成下一个词的概率分布。RNN主要是为了保存句子前面的特征。
    • 加入两层Embedding,比单层更有效学习单词的稠密表示
    • 不使用循环层来存储视觉信息
    • 图像特征与句子描述中的每个单词一起被输入到m-RNN模型

Key Point

  • 大多数句子 - 图像多模态模型使用预先计算的词嵌入向量作为其模型的初始化,相比之下,作者随机初始化他们的单词嵌入层并从训练数据中学习它们。实验效果更好
  • 通过对Flickr8K数据集的交叉验证,对超参数(如层尺寸和非线性激活函数的选择)进行调优,然后在所有的实验中进行固定。
  • 以前的工作:将图像描述视作检索任务,首先提取句子和图像特征,将其嵌入共同的语义空间,计算图像和句子之间的距离。生成图像时,从句子数据库中检索距离最小的句子作为描述。这种方法不能自动生成丰富的描述
  • Benchmark datasets for Image Captioning: IAPR TC-12 ( Grubinger et al.(2006) ), Flickr8K ( Rashtchian et al.(2010) ), Flickr30K ( Young et al.(2014) ) and MS COCO ( Lin et al.(2014) ).

Model

  1. input word 通过两个word embedding层,生成稠密向量表示\(w(t)\)\(w(t)\) 同时被传递给 RNN 和 Multimodal
  2. RNN 所做变换为\(r(t)=f_2(U_r\cdot{r(t-1)+w(t)})\) [公式] , 其中 [公式]\(t\) 时刻循环层的输出,\(f_2\) 是ReLU函数
  3. 右侧绿框中,输入图像经过 CNN 生成特征向量\(I\)\(I\) 与 一并输入multimodal。multimodal 所做变换是 \(m(t)=g_2(V_m\cdot{w(t)+V_r\cdot{r(t)}+I})\),\(g_2(x)=1.7159\cdot{tanh(\frac{2}{3}x)}\)
  4. \(m(t)\) 输入 softmax 层生成概率分布。至此,由input word 产生了一个 next word

猜你喜欢

转载自www.cnblogs.com/doragd/p/11373469.html
今日推荐