ICCV 2017 | 语言卷积神经网络应用于图文生成的经验学习

本文基于语言卷积神经网络,融合之前时刻的所有单词,从而保存了更详尽的历史信息,使得结果更加准确。不同于常规语言模型例如LSTM通过逐个单词递推的方式来生成caption,本模型对历史单词进行建模,解决了长文本层次结构和依存性建模的问题,取得了当时的state-of-the-art。

论文地址:
https://arxiv.org/abs/1612.07086

引言

传统的encoder-decoder模型,虽然通过LSTM的门机制可以一定程度上减轻梯度消失问题,但无法避免的是,当输入序列很长时,会丢失大量的历史信息。尤其是在中文领域,模型的性能往往会受到影响。

数据集

本文基于MS-COCO和Flicker30k数据集,分别包含123,287和31,783张图片。为了提高训练数据的质量,将数据集中单词全部小写并用UNK替换出现次数少于5次的单词,另外,训练集中的Ground Truth Captions截断为最多包含16个单词。
###模型
该模型主要由四部分组成:用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,融合视觉和文本特征的的多模态层 M,以及单词预测的递归网络层。 CNN_I层利用16层的VGGNet提取图片特征,并embedding成需要的尺寸;CNN_L对历史预测的所有单词进行建模得到整体表达;M层将图像和语言信息进行融合后送入递归神经网络预测下一个单词。

CNN_L Module依托其天然的整体理解能力,将历史预测的单词构建一个层级表征,从而实现远距离依存性的提取。

将历史预测单词融合

逐层进行卷积操作,提取高级特征。此处限制了历史预测单词的数量为16个,对于不足16个的情况进行padding。为了体现单词间的时序性,与常规CNN不同的是,不进行池化操作。另外,根据实验发现,CNN层数越深效果越好。

Multimodal Fusion Layer

多模态层即对图像和语言信息进行融合。

Recurrent Networks Layer

递归网络层采用Recurrent Highway Networks结构,便于反向传播梯度计算。

实验结果

对比Google NICv2和Attributes-CNN+RNN等模型,可以看出本文模型取得了较大突破,优于当时大部分模型,而且生成的caption具有很好的流畅性。

结论

本文利用语言卷积模型,全面考虑了历史信息的包含,提升了结果的准确性,也使得模型更易于训练。但是由于历史信息的持续影响,使得图像信息中的实际物体信息反而被忽视,导致了句中名词和属性词的误判。



在这里插入图片描述
扫码识别关注,获取更多论文解读

猜你喜欢

转载自blog.csdn.net/a609640147/article/details/90040797