One-Stage Visual Grounding(单阶段语言指示的视觉定位)论文粗读_2017-2018

禁止以任何形式转载文章!

1.A Joint Speaker-Listener-Reinforcer Model for Referring Expressions(2017 CVPR)

论文地址:https://arxiv.org/abs/1612.09542.

前期相关工作:

以往的数据集大都使用的是拼接的图像,并非自然的实际图像。
最早的一个大规模REG数据集:Kazemzadeh等人使用交互式游戏在ImageClef数据集的20k自然图像上引入了第一个大规模REG数据集。这个数据集是在一个双人游戏中收集的,其中第一个玩家在给定指定目标对象的情况下写入一个引用表达式。第二个玩家只会看到图像和语言表达式,并且必须点击语言所描述的正确对象。如果点击位于目标对象区域内,则双方得分,角色互换。

使用相同的游戏相互作用,Au-Thors进一步收集了MSCOCO图像上的Refcoco和Refcoco +数据集。每个包含50,000个引用的对象,平均具有3个引用表达式。区别在于,在Refcoco+中,禁止使用绝对的位置单词。Mao等人还收集了谷歌的REG数据集,也基于MSCOCO图像,但采用的是非交互式设置,RefCOCOg数据集得到的是更复杂的长表达式。

论文中三个最新的REG数据集简介:
RefCOCO在19,994张图片中有142,210个表达式表示5万个对象。RefCOCO+数据集在19,992张图片中有49,856件物品的141,565个表达。 RefCOCOg在26,711张图像中为54,822个对象提供104,560个表达式。

当前,图像表达和理解任务上深度学习大致分为两类,第一种是使用CNN-LSTM编码器-解码器生成模型来生成(解码)给定已编码目标对象的句子。第二种方法使用联合嵌入模型,将目标对象的视觉表示和表达的语义表示投射到公共空间,并学习距离度量。作者将两者结合成一个整体,一起训练并加入强化监督的模块取得了良好的效果。

论文模型:

作者利用一种统一的框架去整合语言指示性表达所需的文本理解和图像文本生成两个部分。整个模型由三部分组成: speaker, listener, and reinforcer。

  1. Referring Expression Comprehension对应着listener:
    参考表达式生成(REG)任务的研究始于20世纪70年代。该领域的许多早期工作集中在相对有限的数据集上,使用人工场景中物体的合成图像或简化环境中有限的真实物体集。最近,研究重点已经转移到更复杂的自然图像数据集,并已扩展到包括参考表达理解任务,以及与机器人在现实世界中的互动。这变得可行的一个原因是,在深度学习模型可以应用的范围内,已经收集了几个大规模的REG数据集。
  2. Referring Expression Generation对应着speaker:
    要求生成的文本描述,应该尽可能的清晰、简短和有序,同时避免含糊不清。
  3. reinforcer module:
    强化模块是通过强化学习来整合的,这是受到行为心理学的启发。行为心理学认为,在一个环境中活动的个体应该采取行动,使其期望的累积回报最大化。在我们的例子中,奖励的形式是经过训练的鉴别分类器,以奖励产生较少歧义的表达的 speaker。由于强化学习的奖励函数不可微,在训练过程中使用强化学习策略梯度算法将其合并。

在这里插入图片描述
说话者是一个CNN-LSTM模型,它为目标对象生成一个引用表达式。监听器是一种联合嵌入模型,用来最小化成对对象和表达式表示之间的距离。此外,强化器模块通过抽样更有区别性(更不模糊)的表达来帮助提高说话者的训练。利用生成损失、嵌入损失和奖励损失三个损失函数对模型进行联合训练,从而提高了理解和生成任务的性能。

1)训练:多任务学习
在这里插入图片描述

除了使用目标对象和引用表达式的ground-truth对来训练说话者之外,我们还使用强化学习来指导说话者生成较少歧义的表达式

2)测试:我们可以使用speaker或listener来选择给定输入表达式的目标对象。利用listener,我们将输入表达式嵌入到学习到的嵌入空间中,并选择距离最近的对象作为预测目标。使用speaker,我们将为图像中的每个对象生成表达式,然后选择生成的表达式与输入表达式最匹配的对象。因此,我们通过综合speaker和listener的预测来选择最可能的对象。
在这里插入图片描述

3)性能:只使用listener做预测就已经能取得比以往研究更好的结果了,着说明这种联合训练的方式的有效性。当把listener和speaker一起做预测时,效果提升4个百分点。此外,作者还对比了训练过程中加入强化监督模块,证明了其有效性。


2.An Attention-based Regression Model for Grounding Textual Phrases in Images(2017 IJCAI)

论文地址:https://www.ijcai.org/Proceedings/2017/0558.pdf.

前期相关工作:

最近几年基于深度学习的语意相关的定位问题变得活跃,例如视频字幕,图像问答系统等多模型任务。现有方法基于proposals,模型的最终性能取决于生成proposals的方法,这类方法也带来了额外的计算成本。此外,正确的region不一定包含在proposals中。对不包含正确region的proposals进行ranking是很困难的。

我们的方法使用深神经网络来组合图像和文本表示,并在文本短语中的两个图像子区域和单词上用注意力模型改进目标区域。本文将grounding视为一个回归问题,提出了可以直接识别短语对应区域的方法,省去了生成proposals带来的计算量。

注意力在需要多式化理解的任务方面是有效的。图像QA指定图像区域的文本短语对一个问题进行响应,并预测目标区域的响应以预测问题的答案。在注意力机制上面,我们的方法与图像QA的方法之间的差异是关注的目标。在图像QA中,注意模型估计与答案最相关的图像区域。相比之下,我们的图像注意模型直接预测与文本短语有关的区域。基于图像QA方法使用专注于他们的注意模型来产生某种文本答案的功能,而我们使用它来预测文本短语所指的区域。因此,除了图像注意力机制外,我们还加入了文本注意力。

ReferIt数据集:由三部分组成:图像、每个图像中的区域以及每个区域的字幕。总共有2万张图像,取自IAPRTC-12数据集。区域来自SAIAPR-12数据集。在一款双人游戏中,总共有大约12万个字幕,其目标是为目标区域生成明确的参考表达。总共大约有10万个对象,包含255个类别。这些类别包括背景,如天空。因此,该数据集包含大小不明确的边界框。相比之下,MSCOCO图像标注和VisualQA 等multimodal datasets拥有的图像数量是ReferIt的10倍以上,独特的图像注释对数量是ReferIt的6-12倍,说明了该任务面临的数据稀疏性挑战。(MSCOCO 有超过30万个图像 和1.5M字幕, Visual QA 超过 250K 图像以及750K个不同的问题)

论文模型:

在这里插入图片描述
我们的方法通过图像模型学习理解图像,通过文本模型学习理解文本短语,通过图像和文本注意模型学习理解图像和文本短语之间的关系
模型大致分为5个部分:

  1. Image Model:CNN VGG-16.
  2. Text Model:Bidirectional LSTMs (BLSTM).
  3. Image Attention Model:图像注意力模型估计图像中的每个区域与文本短语的对应程度。
  4. Text Attention Model:文本注意模型,它根据当前图像注意模型的输出来估计每个单词的重要性。这个模型帮助我们精炼文本表示,以反映最重要的词。在图像定位任务中,最重要的信息是位置。因此,作为文本注意模型的输入,我们使用图像注意图,它代表整个输入短语在图像中的位置。
  5. Region Prediction Model:目标区域预测模型,它对图像和文本关注结果进行回归,以预测区域的包围框的四个参数:左上角的x和y坐标、包围框的宽度和高度。采用一种MLP,以图像注意力映射和更新的短语特征为输入,预测由(x, y, w, h)指定的边界框为输出。这里采用了LIoU

在这里插入图片描述

在这里插入图片描述

图像和文本注意力模型都有一个独立的MLP,用于计算与每个目标注意力单元相关的权重。每个目标注意单元都与该注意模型的输入配对,并一次输入到MLP中。图中红色的路径表示第一对,绿色的路径表示第二对,蓝色的路径表示最后一对。这样,两个MLP都可以独立处理每个特征对。

特点:本文提出了一种回归模型来识别与文本短语对应的图像区域,该模型不依赖于外部图像区域预测,消除了精度和计算效率方面的潜在瓶颈。其次,通过对ReferI数据集的详细评估。表明,提出的方法达到了37.26%的最新水平,比之前表现最好的方法高出5个百分点以上。第三,通过在图像和文本上应用注意力模型,我们的方法能够学习细粒度的对应,进一步提高其性能。


3.An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning(2017 arXiv)

论文地址:https://arxiv.org/abs/1703.07579.
代码:https://github.com/tensorpack/tensorpack.

前期相关工作:

自然语言对象检索,以往的研究将这一问题分为两个独立的阶段:一是从图像计算区域建议,而不探索语言描述;第二,根据参考表达对对象建议进行评分,并选择排名靠前的建议。这使得proposals生成冗余,甚至与引用的对象无关。

在本文中,我们提出了一个端到端深度强化学习模型用于自然语言对象检索任务。与以前的方法不同,我们的模型利用了上下文信息,并在联合框架中利用了视觉信息和语言先验。在不同数据集上的大量实验证明了该模型的有效性。由于我们的方法没有将查询对象限制在预定义的类别中,因此我们的方法在实际场景中有很大的推广潜力

论文模型:

图片和语言指示的查询文本信息通过context-aware policy and value network,空间尺度特征是通过将全球平均池化应用到整个特征地图来计算的。时间上下文信息在LSTM的状态中进行编码。该网络的输出为策略π(a|s)和值Vπ(s)。

在这里插入图片描述

生成的策略和值,将送给后面的agent进行强化学习:

在这里插入图片描述
我们使用多个具有环境的agent来并行地推断当前网络。一个agent使用每个查询生成一个体验序列。注意,每个查询的终止时间T是可变的。数据收集器从所有代理收集训练元组,对数据进行批处理,以异步更新图所示的上下文感知策略和值网络。

在这里插入图片描述

情境感知强化学习框架。黄色的盒子是真实框。如果与真实框IoU值大于0.5,则agent在每个时间步上生成的包围框为绿色,否则为红色。

在这里插入图片描述
ReferItGame数据集:ReferItGame数据集包含ImageCLEF IAPR图像检索数据集中的20,000张图像。对于每个对象,数据集使用一个分割区域来描述其形状和位置信息。数据集中总共有238个对象类别。由于原始数据集中的对象是用像素级分割而不是用包围框进行本地化的。将每个对象的分割数据转换为一个包围框,然后将整个数据集分割为两个子集:trainval集和测试集。我们使用提供的元数据和分割。经过处理的数据集在训练集中包含59,976个实例,在测试集中包含60,105个实例。

RefCOCO, RefCOCO+ and Google Refexp (RefCOCOg) Datasets前面已经介绍了,这里不赘述。


4.Weakly-supervised Visual Grounding of Phrases with Linguistic Structures(2017 CVPR)

论文地址:https://arxiv.org/pdf/1705.01371.pdf.

前期相关工作:

传统的监督框架,依赖于带有边框或像素级别标注的数据集,而随着领域朝着解决更大规模问题的方向发展,获取大量的这类标注数据成为了瓶颈。本文应对以上问题,提出了弱监督的视觉定位方法,可以基于图像等级的标注(没有region-phrase标注)进行训练,生成像素级别的grounding结果。

本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss,分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配,后者用于匹配image-phrase pairs。

论文模型:

文中建议利用语言结构来定位图像中的短语。例如,从“a man that is cutting sandwich”这句话,我们可以推断出“a man”和“sandwich”在空间上应该是相互排斥的。同时,共同占据“一个正在切三明治的人”的空间范围。我们强制这些结构约束作为一个新的深度网络体系结构的弱监督视觉基础短语的一部分。
在这里插入图片描述

利用自然语言中的结构来提供规则和约束,使自由形式的语言在图像上扎根。请注意,在训练期间不使用任何 ground-truth masks。

在这里插入图片描述
架构由4个子模块组成:视觉编码器、语言编码器、语义嵌入模块和损失函数。采用VGG网络的卷积层作为视觉编码器。对于语言编码器,使用一个两层的LSTM网络。语言编码器的输出直接存在于语义空间中,而视觉编码器的输出通过语义嵌入模块投射到语义空间中,语义嵌入模块是一个两层感知器,在层与层之间插入Dropout。除了投射完整图像的视觉特征外,语义嵌入模块还负责将特征投射到每个空间位置的嵌入空间:在这种情况下,视觉编码器的输出绕过平均池化层,直接输入到嵌入模块。用于这两个目的的嵌入模块共享它们的权值。投影后,将完整图像特征和空间特征分别与语言码进行匹配,分别生成匹配分数和注意力掩码。当结构约束被强加到注意掩模上时,使用匹配分数来计算区别损失。


5.Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding(2018 CVPR)

论文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers.
代码:https://github.com/hassanhub/MultiGrounding.

前期相关工作:

在视觉方面,大多数作品利用深度卷积神经网络,但往往依赖边界建议或使用图像的全局特征,限制了定位的能力和自由度。在文本方面,方法依赖于一个封闭的词汇表,或者尝试使用小的图像-标题对数据集训练它们自己的语言模型。最后,这两种模态之间的映射通常使用弱线性策略。作者认为,并没有充分利用最近开发的更强大的可视化和文本模型的潜力,而且还有开发更复杂的表示和映射方法的空间。

作者提出的改进方法:
•在弱监督下,我们学习视觉和文本特征的非线性映射到一个共同的区域词句语义空间,其中任何两种语义表征之间的比较可以通过简单的余弦相似度进行;
•提出了多层次的多模态注意机制,在不同语义层次上生成词或句两层的注意图,从而在不同语义层次上选择最具代表性的注意视觉特征;

论文模型:

在这里插入图片描述

方法概述:文本输入是用一个预先训练好的文本模型处理的,然后是一个到公共语义空间的非线性映射。对于图像输入,我们使用一个预先训练的视觉模型来提取多层次的视觉特征映射,并学习将每个特征映射到公共语义空间的非线性映射。通过多层次的注意机制,再加上特征层的选择,得到图像和句子之间的相关性分数。我们只使用图像-句子对的弱监督来训练我们的模型。

在这里插入图片描述
左图:选择一个CNN模型的不同卷积块的feature map,使用双线性插值将其调整到相同的空间维数,并将其映射到相同大小的feature map。右图:单词和句子嵌入了预先训练的ELMo模型的公共空间。绿色通道是单词嵌入,红色通道是句子嵌入。所有的橙色盒子(1×1卷积层的可视化映射,线性组合和两组完全连通层的文本映射)都是投影到公共空间的可训练参数。

使用的数据集:
MSCOCO 2014:包含82,783张训练图像和40,504张验证图像。每个图像都与五个描述图像的标题相关联。我们使用这个数据集的训练分割来训练我们的模型。
Flickr30k Entities:Flickr30k Entities包含224k短语描述区域边界框,每个区域都有5个标题描述。图片和字幕来自Flickr30k。我们使用来自该数据集测试分割的1k张图像进行评估。
VisualGenome:训练集中包含77398张图像,验证和测试集各包含5000张图像。每个图像由多个包围框注释和与每个包围框相关联的区域描述组成。我们使用这个数据集的训练分割来训练我们的模型,并使用它的测试分割来评估。
ReferIt:由来自IAPR TC-12数据集的20,000张图像以及来自SAIAPR-12数据集的99,535个分割图像区域组成。图像与整个图像的描述以及在双人游戏中收集的提供大约130k独立实体描述的局部图像区域相关联。在我们的工作中,我们只使用与每个区域相关的唯一描述。我们使用类似于包含9k训练、1k验证和10k测试图像的分割。我们使用这个数据集的测试分割来评估我们的模型。


6.Real-Time Referring Expression Comprehension by Single-Stage Grounding Network(2018 arXiv)

论文地址:https://arxiv.org/pdf/1812.03426.pdf.

前期相关工作:

现有方法为三阶段,①生成proposals;②对两种模态进行encode;③基于matching score进行ranking。经过作者统计,这类方法第一步会耗费较多时间,因此并不适用于有实时需求的场景。
在这里插入图片描述

Single-Stage Grounding network(SSG)模型与传统多阶段方法的比较。我们的SSG模型完全抛弃了区域建议的生成阶段,并直接预测参考表达式的边界框,从而运行得更快。我们提出了一种具有对象中心偏差的引导注意机制( guided attention mechanism),鼓励SSG将注意力集中在所指物的中心区域。此外,我们所提出的SSG可以通过利用和预测视觉属性信息来进一步区分参照对象。

论文模型:

提出的SSG模型的概述:输入图像由CNN编码,生成代表不同区域的局部视觉特征。采用双层双向LSTM (Bi-LSTM)实现的RNN编码器对引用表达式进行序列处理,产生文本特征。多模态交互者专注地利用和总结了视觉特征和文本特征之间的复杂关系。在引用表达式grounder中,定位模块依赖于联合上下文表示来产生边界框的坐标和置信度分数。此外,一种新的通过将注意权重关联到参照区域的引导注意机制,使视觉注意集中在参照区域的中心区域。此外,还引入了属性预测模块来再现引用表达式中包含的属性信息。请注意,我们仅在推断阶段使用localization模块为引用表达式生成边界框。
在这里插入图片描述
模型主要由三个部分组成:multimodal encoder, multimodal interactor, and referring expression grounder

  1. Multimodal Encoder:用于生成输入图像和文本数据的语义表示。
    1.1 Image Encoder:YOLO-v3( MSCOCO-LOC 数据集上预训练)
    1.2 Text Encoder:将两个Bi-LSTM层叠加在一起
  2. Multimodal Interactor:基于局部视觉特征和文本特征,对它们之间的复杂关系进行了细致的挖掘和总结。具体来说,我们采用注意机制,将视觉局部特征,在参考表达式的文本特征的条件下再生成视觉特征。这种注意机制使每个局部的视觉特征与所指的表达表征互动,从而将视觉局部特征汇总在一起,产生聚合的视觉语境特征。最后,将聚集的视觉上下文特征与文本特征连接在一起,得到图像和参考表达式的联合表示。
  3. Referring Expression Grounder
    3.1 Localization:预测左上角坐标以及置信度分数
    3.2 Guided Attention:鼓励我们的模型更多地关注正确参考点的中心区域,ground-truth包围盒的中心区域应该产生最大的注意权重,因为与中心区域相关的视觉特征对于参照表达的定位更为重要。将引导注意过程制定为一个局部区域分类问题,中心点标记为1,其余标记为0。

在这里插入图片描述

  1. 3 Attribute Prediction:使用了额外的卷积层,带有1024个滤波器,步幅为1 × 1。然后全连接层堆叠起来,以预测所有属性的概率,其中N是从训练数据集中提取的最频繁的属性词的数量。

禁止以任何形式转载文章!!!

下一篇:One-Stage Visual Grounding 2019-2020年论文粗读

参考:One-Stage Visual Grounding论文汇总.

猜你喜欢

转载自blog.csdn.net/qq_41917697/article/details/114678877