image retrieval using scene graphs读书笔记

用场景图的惊醒图像检索

摘要：本文基于场景图的概念，提出了一种新的语义图像搜索框架。我们场景图描绘了对象(例如：人、船)、对象的属性（例如：船是白色的）、对象之间的关系（例如：人站在船上）。我们用这个场景图再去检索和这个场景图有类似语义的图片。为此，我们设计了一个有条件的随机场模型，然后利用场景图推算出可能图来检测图片。这些图的可能性被用来作为检索的分数排名。我们介绍了一个手动生成的有5000张场景图的图片，并且用这个数据来检测我们用于检测图片的模型。特别的，我们将用完整的场景图和子场景图的检测来进行模型评估，并且展示出比传统的仅仅是用对象和低水平的图像特征检测图像的方法更好。另外，我们还表明，与基线方法相比，我们的完整模型可以用来改善对象的本地化。

简介：在计算机视觉中通过描述图形的内容来检索图像是一个令人兴奋的应用。一个理想的系统是可以通过对象、结构关系、包含这些对象的属性来搜索图片。但是很遗憾，目前的系统不能完成这样的查询，因为他们不能利用所要查询的图片的本质结构，例如图片一。

为了解决这个问题，一个计算机视觉系统必须要能清晰的表示和推理图片中的对象、属性、对象之间的关系，这我们称之为详细语意。最近Zitnick et al.，通过对剪接艺术组成的抽象场景的学习，向这一目标迈出了重要一步。他们展示的完美的详细语意的识别得益于图片理解和以及对图片检索的改进。

把这种水平语意用来推理真实世界的场景将会是一个重大的飞跃，但是要完成这歌工作需要面对两个挑战。首先，在一副图中的对象相之间的影响可能会很复杂，绝不仅仅是向简单的两个对象之间的关系那样，另外不是所有的类别都是可以识别的。

为了应对这些挑战，本文为了详细语意的图像检索准备一个新的框架，这个框架是基于视觉的条件随机场的（CRF:分割和标记序列数据数据的模型）。我们的模型是从最近计算机图形工作得到的，它利用图形的基本公式去生成和比较场景。我们利用场景图的概念去表示图片的详细语意。

我们场景图抓取视觉场景的详细语意是通过明确模型的对象、属性、以及对象之间的关系。我们的模型在语意图形检索的时候是利用了场景图进行检索的。用场景图替换文本查询可以在不依赖非结构化文本的情况下精确地描述所需图像的语义。这种公式设计到了多种用于对象和用文本做场景识别的方法。但是在使用场景图的时候我们可以对多个交互模型建立多个模型，当传统的CRF模型太严格的时候，并编辑固定的关系给两个节点。

CRF公式：C:代表对象的类别、A代表属性、R代表关系，场景图用G=（O,E）来表示，O代表一系类的对象，E代表对象之间的边，任何一个Oi=（Ci、Ai）都是由一个类型和若干属性表示的。描述一个用很多的盒子，这盒子我们叫它B, γ映射关系。

image retrieval using scene graphs读书笔记

猜你喜欢