【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】

“Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering”

今天给大家分享的NIPS2018的一篇有趣论文,还是老样子,论文PDF和高端大气上档次PPT下载链接:https://download.csdn.net/download/luolan9611/10824134

一,介绍

VQA(Visual Question Answer):是一种看图问答任务,它同时要求算法有能力分析理解图像的内容,并且对提出的问题进行语义抽取,关键知识解析。常见的图像问答可以直接从图像内容获取到问题的答案无须推理过程。

基于事实的视觉问答推理任务(FVQA):该任务不仅包含图像与相应问题及其答案的语料,还携带了一个数量巨大的知识库(知识数据库)里面包括了从各个来源提取到的事实(事实)。它要求算法根据问题中的文字表述结合图像,将事实关系映射到答案本身的实体上,即相较于看图问答(VQA),事实图像问答(FVQA)多了一个推断的过程。

基于事实的图像问答任务(FVQA)输入数据由成对的图像与其对应的问题,所有游戏外加大量事实的知识库(KB)构成,事实在知识库中以形如F =( x,y,r)的三元组来表示,x指代图像中的实体信息,y指代属性或者短语,r则是关系介词。“FVQA:Fact-Based Visual Question Answering”的作者提出了FVQA数据集,该数据集有2190图片,5286问题,问题对应了4126事实。上面的三张图便是摘自FVAQ事实视觉问答任务。

左图问题:图片中的区域是用来做什么的?

事实三元组:(Field,UsedFor,Grazing Animals)田野用于放牧

中间问题:图中的哪个物体和老虎更相近?

事实三元组:( Cat,RelatedTo,Tiger)猫和老虎相关

右图问题:这张图中的地上能找到什么?

事实三元组(Sand,AtLocation,Beatch)沙子在沙滩上

这些事实关系抽取自知识库如ConceptNet,WebChild,DBpedia。可能的关系有可能的关系R = {Category,Comparative,HasA,IsA,HasProperty,CapableOf,Desires,RelatedTo,AtLocation,PartOf,ReceivesAction,UsedFor,CreatedBy} ),如下表所示(该表截自FVQA论文):

知识库中的关系有19w+,是非常庞大的,要想根据图片及问题从知识库中检索到相应的事实,并不是一件容易的事。

GCN:Kipf和威灵引入了图形卷积网络(GDN)来扩展卷积神经网络(CNN)以任意连接无向图.GCN学习图中每个节点的表示,该表示编码感兴趣节点周围的图的局部结构,以及节点本身的特征。在图卷积层,从相邻节点和节点本身聚合特征以产生新的输出特征。通过堆叠多个层,我们能够从更远的节点收集信息.GCN已成功应用于图节点分类[25],图形链接预测[42]和零点预测[52]。由于各种类型的关系连接的节点之间的基础结构化交互,知识图自然适用于GCN的应用。在这项工作中,给定图像和关于图像的问题,我们首先识别大型知识图的有用子图,如DBpedia [3],然后使用GCN生成编码节点和邻域特征的表示,可用于回答这个问题。

二,方法

看图,作者提出的方法主要分为两个模块,左边是事实检索模块,右边是答案预测模块。

1 )事实检索模块:检索给定问题- 图像对的最相关事实根据问题与事实之间的单词相似性提取前100个事实,即f100。通过基于事实关系与预测关系的一致性来减少F100,来获得一组相关事实(事实关系与预测关系的一致性是LSTM从问题中预测到的关系,去和检测到的100个事实中的关系匹配筛选,预测到的关系是ISA,那么就从F100中把不是ISA关系的事实筛掉)

2 )答案预测模块:将答案预测为这个减少的事实空间中的一个实体为了预测答案,我们使用GCN来计算图中节点的表示,其中节点对应于唯一实体:

即X或者ý在事实空间中。如果事实与两者相关,则图中的两个实体是连接的。使用GCN允许联合评估所有实体的适用性。

上图中标有的7个小步骤:​​给定图像和问题,使用形容词:性评分技术(1)。从事实空间获得相关事实(2)LSTM从问题预测关系,以进一步减少相关事实及其实体的集合。通过连接图像的视觉概念嵌入(3),问题的LSTM嵌入(4)和实体的LSTM嵌入(5)来获得实体嵌入。每个实体在图中形成单个节点,并且关系构成边(6 GCN (图卷积网络)后跟MLP进行联合评估(7)以预测答案。该方法是端到端的训练。

【解释一下这里的相似性评分技术】:

 手套词嵌入用于表示事实和问题中的每个单词。执行初始会从问题中移除停止词(例如“做什么”,“在哪里”,“了”)。为了给每个事实分配相似性得分,我们计算手套嵌入事实中每个单词与问题中的单词的余弦相似度和与检测到的视觉概念中单词的余弦相似度。我们选择事实中具有最高相似度的单词的前ķ%,并将这些值平均作为该事实的相似性得分。根据经验,我们发现K = 80可以得到最好的结果。

手套的全称叫字表示的全局向量,它是一个基于全局词频统计(基于计数和整体统计)的词表征(单词表示)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(相似性),类比性(类比)等。我们通过对向量的运算,比如欧几里得距离或者余弦相似度,可以计算出两个单词之间的语义相似性。

训练:

模块一中关系预测器的参数是独立训练的。模块二中由两个隐层GCN 与一层MLP 形成的网络进行端到端训练,网络采用随机梯度下降与交叉熵损失进行最终的答案预测。

 

三,实验及结果

1。

根据相似性对事实进行排序,并筛选100个最高得分事实。表1显示,真实事实在84.8%的时间中存在于前100个检索到的事实中,并且在22.5%的时间被检索为TOP1事实。报告的数字是五个测试集的平均值。我们还改变了第一阶段检索到的事实数量,并在选项卡中报告召回率和下游准确率(最终准确率)。当只检索50个事实时,召回@ 50(76.5%)低于召回@ 100(84.8%),这导致模型的最终准确率降至58.93%。当我们检索150个事实时,召回率为88.4%,最终准确率为68.23 %,因为检索前100个事实的效果最好,所以选择检索100个事实。

2。

之前在FVQA上表现最好的STTF方法的准确率为62.20%,本文最好的结果12有69.35%,比先前高了7%。上面的表是其它方法的准确率,下面的表是作者做的控制变量实验。说明VC(Visual Concept),MLP,GCN Layers,REL对模型的作用。

用一张来自FVQA论文的图解释一下视觉概念:

只看最左边这列,一张图,用目标检测器,场景分类器,属性分类器,从图中提取出物体,场景,动作三种信息,得到图中的目标为猫,狗,围栏,场景为庭院,行为是坐着和站立这些视觉概念在本文的方法中用于和问题嵌入,实体嵌入连接,形成节点图作为GCN的输入本文中VC的图如下:

3。

在本文中,解决FVQA任务的总准确率受三个子模块准确率的影响。一是事实检索的准确率,二是关系预测的准确率,三是答案预测的准确率。上表展示的是错误率。

4.最激动人心的时刻到了,效果展示展示展示:

1.图中的什么东西是烘焙出来的?甜甜圈

2.图中的哪个物体有钉钉刺刺?菠萝

3.图中的哪个物体有毒?蛇

4.图中的哪个行为比走路快?骑自行车

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- ---------------

这一行展示的效果是本文提出的方法对于同义词,同形异义词也不在话下:

1.图中的哪个交通工具可以浮动?问题中的关键词是漂浮,而事实中的关键词是sailing.float和帆船属于同义词,但是在问题和事实中的表述不同。这样的问题也能解决哈哈。

2.这张图中展示的地方是用来干什么的?答案应该是烹饪吧,为什么是厨房呢。作者说这个很厉害是因为问题中没有出现任何关键字,但仍然能够匹配到事实。

3 ...... ....... 4

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------

这一行展示的是错误的效果,下面红色的字标出了错误原因。可能是事实没有出现在检索的前100条中,可能是预测了错误的关系,也可能是GCN预测了错误的节点。

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- ----------------

今天的分享就到这里啦,为这篇论文做了一个分享PPT,感兴趣的朋友可以在CSDN的下载区域下载: https ://download.csdn.net/download/luolan9611/10824134

另外有一篇可参考的:NeurIPS 2018亮点选读:深度推理学习中的图网络与关系表征

猜你喜欢

转载自blog.csdn.net/luolan9611/article/details/84747234