eccv 2018 image caption generation论文导读

全部论文下载连接：链接：https://pan.baidu.com/s/1Di0K1jN7FMVFGsKIAF_ltg
提取码：ifjj

“Factual” or “Emotional”: Stylized Image Captioning with Adaptive Learning and Attention
来自University of Rochester的Professor Jiebo Luo课题组的论文，挂名的包括已经毕业去Microsoft Research的学生，还有Adobe Research的几个作者。
摘要：为图像生成风格化的描述是图像描述中一个新兴的主题。给定一个图像作为输入，它要求系统生成一个具有特定风格的标题(例如，幽默、浪漫、积极和消极)，同时在语义上准确地描述图像内容。在本文中，我们提出了一种新的程式化图像描述模型，有效地考虑了这两种需求。为此，我们首先设计了一种新的LSTM变体，称为风格-事实LSTM，作为我们模型的构建块。它使用两组矩阵分别捕获事实知识和风格化知识，并根据先前的上下文自动学习两组知识的词级权重。此外，在训练模型捕获样式元素时，我们提出了一种基于参考事实模型的自适应学习方法，该方法在模型学习时向模型提供事实知识，并能自适应地计算每一时间步骤提供的信息量。我们对两个风格化的图像描述数据集进行了评价，它们分别包含幽默/浪漫字幕和正负字幕。实验表明，我们提出的模型的性能优于先进的方法，而不需要额外的真实标签信息作为监督.
网络结构上的修改很简单，就是分成了一个事实部分，一个风格部分。
在这里插入图片描述

在这里插入图片描述
重点是在训练的时候，分为了两个训练阶段，第一阶段就用普通的训练方式来训练生成表述事实的网络。在第二个阶段，这里使用了如下的损失函数：

更详细的可以去查看论文。

Boosted Attention: Leveraging Human Attention for Image Captioning
来自University of Minnesota的的工作。
摘要：视觉注意在图像描述中显示了有用的功能，目的是使描述模型能够有选择地聚焦于感兴趣的区域。现有的模型通常依赖于自上而下的语言信息，通过优化目标函数来隐式学习注意力。虽然有些有效，但学习到的自上而下的注意力可能由于没有直接监督信息的注意力使得学到的注意力机制无法集中于正确的感兴趣区域。受人类视觉系统的启发，人类视觉系统不仅受到特定任务的自顶向下信号的驱动，而且还受到视觉刺激的启发，本文提出将两种类型的注意用于图像描述。特别是，我们强调了这两类关注的互补性，并开发了一种模型(Boosted Attention)，将它们整合到图像描述中。我们对所提出的方法进行了验证，并在不同的评估指标中使用了最先进的性能。
框架也很简单，同时使用从上到下的attention和从下到上的attention。
在这里插入图片描述

Exploring Visual Relationship for Image Captioning
来自JD AI Research的一个工作。
摘要：人们一直认为，对象之间的建模关系将有助于表示并最终描述图像。然而，没有证据支持图像描述生成的想法。本文提出了一种新的设计方案，在基于注意力的编解码框架下，探讨对象之间的联系对图像描述的影像。具体来说，我们提出了一种图形卷积网络和一种新的将语义和空间对象关系集成到图像编码器中的LSTM (称为GCN-LSTM)体系结构。在技术上，我们根据图像中检测到的对象的空间和语义联系来构建图形。然后通过GCN利用图的结构来细化每个区域在对象上的表示。利用学习到的区域级特征，我们的GCN-LSTM利用了基于LSTM的描述框架，并提供了自动生成的注意机制.在COCO图像字幕数据集上进行了广泛的实验，并与先进的方法进行了比较，得到了更好的结果。更值得注意的是，GCN-LSTM在COCO测试集上将CIDEr-D的性能从120.1%提高到128.7%.
在这里插入图片描述

NNEval: Neural Network based Evaluation Metric for Image Captioning
来自The University of Western Australia的工作。
摘要：图像描述的自动评估是一项复杂的任务，在描述系统的开发和细粒度分析中具有非常重要的意义。现有的自动评估图像描述系统的指标在句子级别上无法达到令人满意的与人类判断的相关性。此外，与人类不同的是，这些指标倾向于关注质量的特定方面，比如n-gram重叠或语义意义。在本文中，我们提出了第一个基于学习的度量来评价图像标题.我们提出的框架使我们能够将词汇和语义信息合并到一个单一的学习度量中。这将导致评估人员考虑到各种语言特征来评估标题的质量。我们所做的实验评估了所提出的度量，显示了在与人类判断的相关性方面的最新进展，并展示了它对分心的更好的鲁棒性。
框架如下：
在这里插入图片描述
和cvpr2018的Learning to Evaluate Image Captioning是同样的思路，可以对照着看。

Recurrent Fusion Network for Image Captioning
来自Tencen AI Lab和Fudan University的一个工作。
摘要：近年来，图像描述的研究取得了很大进展，目前所有先进的图像描述模型都采用了编解码框架。在此框架下，用卷积神经网络(CNN)对输入图像进行编码，再用递归神经网络(RNN)将输入图像转换成自然语言。基于该框架的现有模型只使用一种CNN，例如ResNet或Inception-X，它只从一个特定的角度描述图像内容。因此，无法全面理解输入图像的语义含义，制约了输入图像性能的提高。为了利用多个编码器的互补信息，提出了一种用于图像描述任务的递归融合网络(RFNet)。该模型中的融合过程可以利用图像编码器输出之间的交互作用，为解码器生成新的紧凑、信息丰富的表示。在MSCOCO数据集上的实验证明了我们提出的RFNet的有效性，它提高了图像描述的现有水平。
在这里插入图片描述

Rethinking the Form of Latent States in Image Captioning
来自香港中文大学和清华的一篇论文。
摘要：RNN及其变体已被广泛用于图像描述。在RNN中，描述的产生是由一个潜在状态的序列来产生的。现有的图像描述模型通常将潜在状态的形式定义为向量，并将这种做法视为理所当然。我们重新思考这种选择和研究的替代方法，即使用二维映射来编码潜在状态。这是出于对一个问题好奇：潜在状态中的空间结构如何影响描述结果？我们对MSCOCO和Flickr30k的研究发现两个重要的观察结果。首先，具有2D状态的形式通常在字幕中更有效，在参数规模相近的情况下，总是能够实现更高的性能。其次，2D状态保存空间位置的信息。利用这一点，我们在视觉上揭示描述生成过程中的内部动态以及在输入视觉域和输出语言域之间的连接。
详细内容参见我的另一篇博客：关于图像描述任务中潜在状态形式的重新思考

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data
来自香港中文大学Xiaogang Wang课题组和商汤科技的一个工作。
摘要：图像描述的目的是通过生成字幕来描述图像的内容.尽管做出了许多努力，但为图像生成有判别性的描述仍然不是一件小事。大多数传统的方法都模仿语言结构模式，因此往往会陷入重复频繁的短语或句子的刻板印象，以及每个图像的独特方面。在本文中，我们提出了一个以自检索模块为训练指导的图像描述框架，该框架鼓励了识别字幕的生成。它具有以下独特的优点：(1)自检索指导可以作为描述判别度的度量和评价器，以保证一般描述的质量。(2)生成的描述和图像之间的对应关系自然地包含在生成过程中，无需Human注解，因此我们的方法可以利用大量的未标记图像来提高图像描述的性能，而不需要额外的注释。通过对CoCo和Flickr30k字幕数据集的检索，验证了该方法的有效性，并给出了具有更强区分性的图像描述效果。
在这里插入图片描述
具体内容可以参考我另一个地方的博文判别性Caption generation!Show, Tell and Discriminate

Unpaired Image Captioning by Language Pivoting
来自新加坡南阳理工的工作，挂名作者李还有一个alibaba ai labs的一个人。
摘要：图像描述是一项涉及计算机视觉和自然语言处理的多模态任务，其目的是学习从图像到自然语言描述的映射。通常，映射函数是从一组图像描述对的训练集合中学习的.然而，对于某些语言来说，大规模的图像描述配对语料库可能是不可用的.我们提出了一种通过语言Pivoting来解决这个未配对图像标题问题的方法。我们的方法可以有效地从枢轴语言(中文)中捕捉图像调整器的特征，并使用另一个枢轴-目标(中-英)句子并行语料库将其与目标语言(英文)对齐。我们对两个图像到英语基准数据集：MSCOCO和Flickr30K进行了评估。与几种基线方法的定量比较表明了我们方法的有效性。
在这里插入图片描述

Women Also Snowboard: Overcoming Bias in Captioning Models
来自加州伯克利和Boston University的一个工作。
摘要：大多数机器学习方法都是用来捕获和利用训练数据的偏差。有些偏见有利于学习，而另一些则有害。具体来说，图像描述模型倾向于夸大训练数据中存在的偏差(例如，如果在60%的训练句子中存在一个单词，则在测试时70%的句子中可以预测到)。这可能导致不正确的标题，在领域，无偏见的描述是想要，或需要，由于过度依赖所学的先验和形象的上下文。在本工作中，我们调查了基于人的外表或形象背景的特定性别的标题词(例如，男人、女人)的生成。我们引入了一个新的均衡器模型，它鼓励在场景中排除性别证据时，平等的性别概率，并在性别证据存在时进行有信心的预测。由此产生的模型被迫着眼于一个人，而不是使用上下文线索来做出特定性别的预测。构成模型的损失、外观混乱损失和自信损失是通用的，可以添加到任何描述模型中，以减轻描述数据集中不必要的偏见的影响。我们提出的模型在描述人与人之间的图像和提到他们的性别时比以前的工作有更小的误差，并且更接近于包括女性和男性在内的句子的基本真实比。最后，我们展示了我们的模型在预测人们的性别时更多地关注他们。
总结来说，是为了解决数据偏差的问题，题目很有意思，就是说因为数据库里大部分都是男的玩滑雪板，导致预测结果都是男的，但其实女的也有，只是因为数据库中女的少，导致难以预测出女的。
在这里插入图片描述

eccv 2018 image caption generation论文导读

猜你喜欢