论文记录-带有注意机制的图像字幕生成系统

本周总结记录的论文题目为“Visual Attention Based on Long-Short Term Memory Model for Image Caption Generation”，主要介绍通过使用融合了注意力机制的LSTM（是RNN的特殊形式，两者都重视序列并有反馈，LSTM弥补了RNN在梯度问题上的不足）模型来改善描述图像的语句的准确度。注意力机制是一种模仿人类自然的视觉注意力机制以忽略繁杂背景来获取图像中的重要物体的机制。由于常见的image caption问题的解决方法存在着对图像的描述僵硬呆板不准确的困难，在encoder-decoder框架的基础上，本文提出了通过引入注意力机制以及提取更丰富的特征来实现对图像的准确描述的新模型，并且使用标准评价指标在三种基准数据集（Flickr8K、Flickr30K和MSCOCO，每一个都含有大量图像和对应的描述语句）上验证了该模型。

本文解决image caption问题的方法是结合使用卷积神经网络（CNN）和改造后的特殊循环神经网络（RNN），首先将CNN作为encoder为了图像分类任务而预训练CNN，将最后一层隐层作为输入传递给作为decoder的RNN，基于LSTM生成句子，实现端到端的根据图像生成文字描述。CNN的输出不是直接的分类结果而是属性预测，属性预测改善了语言模型的性能并且获取了对图像的更好的理解。在提取特征之后，不同于简单地将输入到LSTM的词向量改变的方式，本文提出了一种结合注意力机制的LSTM变体语言模型，利用刺激引发机制可以容易地得到去除背景杂音而集中于我们想要的物体的相应范围，然后将这些特征传递给LSTM来生成词。

为了得到更好的性能，本文将加入高级的信息到CNN-RNN框架中，不仅仅提取相关物体的特征，还选择高级语义表达式，首先建立一个含有256个在训练中最常见的单词的语义词典，然后LSTM尝试用句子的形式来表达。本文调整最后的全连接层的参数被按照“Xavier初始化方法”（是一种很有效的神经网络初始化方法，其主要思想是：为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等）初始化，用VggNet从图像中提取建议窗口，经加工的建议数量应当尽可能少，所有从CNN提取到的信息都应当投喂给LSTM以得到进一步的描述生成。

本文介绍到，人类的视觉注意力机制有三层，从下到上的第一层是容易注意到的刺激因素比如颜色、大小、形状等，第二层是过滤掉感知到的东西而在脑中构建的模型图像，第三层是大脑确认关注点。在医学上，注意力的关键被叫做刺激驱动。

研究image caption问题最成功的神经网络模型就是LSTM，它提出了记忆细胞的概念，本文提出的新模型在LSTM中加入注意力机制，并加入一个新的attend门用来输入由CNN的之前的隐藏状态和卷积特征而决定的向量，记忆细胞解码输入并且被四个门所控制，一个LSTM细胞由四个门和一个记忆细胞组成，如图所示。

通过特征提取，注意力有两方面的刺激因素，分为颜色刺激驱动和规模刺激驱动。首先建立一个包含6种颜色RGB信息的颜色词典，为每种颜色划定RGB值界限，在每一时刻根据边界框的位置从输入图像的相应区域提取RGB值，如果该区域有敏感颜色则加强该区域的注意力，并将该颜色对应的单词加入到句子的生成中。在CNN中提取特征和通过softmax函数分类之后，得到有识别分数的边界框，考虑这些分数，计算边界框内区域的像素除以全部图像像素的比率，以0.25为标准，如果超过0.25则将该区域作为一部分注意力输入。将得到的刺激因素输入解码模型。

在编码阶段，该模型记忆了图像和词语到隐藏状态向量中。将给定图像输入到预先训练好的CNN模型VGG-16中并提取到丰富的图像特征，同时将词语转换成一位有效编码表达形式，利用矩阵将图像向量和一位有效编码表达转换成512维的嵌入空间，这些嵌入向量都被投喂给LSTM。

论文记录-带有注意机制的图像字幕生成系统

猜你喜欢