Recent Advance in Content-based Image Retrieval: A Literature Survey部分翻译

随着嵌入相机的数字设备的普及和互联网技术的快速发展，数十亿人将投射到网络共享和浏览照片上。无处不在的数字照片和互联网接入为许多基于图像搜索的新兴应用提供了亮点。图像搜索旨在从大规模的视觉语料库中有效地检索相关的视觉文档到文本或视觉查询。

虽然从20世纪90年代初期以来，图像搜索已经被广泛地探索[1]，但由于对可扩展性的挑战和新技术的出现，它在过去的十年中仍然引起了多媒体和计算机视觉社区的广泛关注。传统的图像搜索引擎通常基于网络上的图像周围的元数据信息（例如标题和标签）来索引多媒体可视数据。由于文本信息可能与视觉内容不一致，因此基于内容的图像检索（CBIR）是优选的，近年来已经见证了大量的进步。

在基于内容的视觉检索中，存在两个基本的挑战，即意图差距和语义差距。意图差距是指用户通过查询手头精确表达预期的视觉内容的难度，例如图像示例或者示意图。语义鸿沟起源于用低级视觉特征来描述高层次语义概念的困难[2] [3] [4]。为缩小这些差距，学术界和工业界都作出了广泛的努力

从20世纪90年代初到21世纪初，对基于内容的图像搜索进行了广泛的研究。现有的调查报告已经对这些年的进展进行了全面的讨论[5] [6] [7]。大约在21世纪初，引入一些新的见解和方法引发了CBIR的另一个研究趋势。特别是，两项开创性的工作为大规模多媒体数据库内容视觉检索铺平了道路。第一个是引入不变的本地

视觉特征SIFT [8]。 SIFT被证明具有优秀的描述性和区分能力来捕获各种文献中的视觉内容。它能很好地捕捉到旋转和缩放变换的不变性，并对光照变化具有鲁棒性。第二项工作是引入袋式视觉词（BoW）模型[9]。利用信息检索，BoW模型基于包含的局部特征的量化来紧凑地表示图像，并且容易地适应用于可缩放图像检索的经典倒排文件索引结构。

基于以上的开创性工作，近十年来出现了多媒体内容的图像检索工作

[10] [11] [12] [13] [9] [14] [15] [16] [17][18] [19] [20] [21] [22] [23] [24] [25 ] [26] [27] [28] [29]。与此同时，在行业内，一些基于内容的图片搜索引擎已经推出了不同的侧重点，如Tineye1，Ditto2，SnapFashion3，ViSenze4，Cortica5等.Tineye是在五月份推出的一个亿量级的逆向图片搜索引擎，直到2017年1月，Tineye的索引图像数据库规模已达170亿。

与Tineye不同，Ditto特别专注于野外的品牌形象。它提供了在公共社交媒体网站上发现共享照片内的品牌的途径。

从技术上说，基于内容的图像检索有三个关键问题：图像表示，图像组织和图像相似性度量。现有算法也可以根据对这三个关键项目的贡献来分类。

图像表示源自基于内容的视觉检索中的内在问题是图像比较。为了便于比较，图像被转换成某种特征空间。其动机是实现隐式对齐，从而消除背景和潜在转换或变化的影响，同时保持内在视觉内容的可区分性。事实上，如何表现图像是计算机视觉理解中的一个基本问题。有句话说“一个形象胜过千言万语”。然而，识别这些“单词”是不平凡的。通常，图像被表示为一个或多个视觉特征。预期该表示是描述性的和区分性的，以区分相似和不相似的图像。更重要的是，它也被认为是不变的，如翻译，旋转，调整大小，照明变化等各种变化

在多媒体检索中，可视化数据库通常非常大。组织大规模数据库有效地识别给定查询的相关结果是一个不容忽视的问题。受到信息检索成功的启发，许多现有的基于内容的视觉检索算法和系统利用经典的倒排文件结构来索引大规模可视化数据库以进行可伸缩检索。同时，也提出了一些基于哈希的技术，以类似的角度进行索引。为了实现这一目标，在高维视觉特征中涉及视觉码本学习和特征量化，嵌入空间上下文以进一步丰富视觉表示的判别能力。

理想情况下，图像之间的相似性应该反映出语义的相关性，然而，由于内在的“语义差距”问题，这很难实现。传统上，基于内容检索的图像相似度是基于视觉特征匹配结果与一些称重方案制定的。另外，现有算法中的图像相似度公式也可以看作是不同的匹配核[30]。

在本文中，我们重点介绍2003年以后十年的研究工作概况。对于2003年前后的讨论，我们引用读者以前的调查[5] [6] [7]。最近有一些与CBIR有关的调查[31] [2] [3]。在[31]中，张等人。在数据库从数千到数十亿的范围内，调查过去20年来的图像搜索。在[3]中，李等人。在社交图像标注的背景下对最先进的CBIR技术进行了回顾，重点关注了三个紧密相连的问题，包括图像标签分配，细化和基于标签的图像检索。另一个最近的相关调查在[2]中提到。在这项工作中，我们以不同的见解着眼于CBIR的最新进展，并更多地强调通用框架的方法学进展

在下面的章节中，我们首先简要回顾基于内容的图像搜索的通用方法。然后，我们分别讨论这些方法的五个关键模块。之后，我们介绍了普遍使用的基准数据集和评估指标。最后，我们讨论未来的潜在方向，并结束这一调查。

2一般流程图概述

基于内容的图像搜索或检索一直是多媒体领域的核心问题，已有二十多年的历史。总体流程图如图1所示。这种视觉搜索框架由一个离线阶段和一个在线阶段组成。在离线阶段，数据库是通过图像抓取构建的，每个数据库图像被表示为一些向量，然后进行索引。在线上，涉及到用户意图分析，查询形成，图像表示，图像打分，搜索排序，检索浏览等几个模块。图像表示模块在离线和在线两个阶段共享。本文不包括图像抓取，用户意图分析[32]和检索浏览[33]，其中调查可以在以前的工作[6] [34]中提到。在下文中，我们将重点讨论其他五个模块，即查询形成，图像表示，数据库索引，图像评分和搜索重新排序。

在下面的章节中，我们将对每个模块中的相关工作进行回顾，讨论和评估各种策略以解决相应模块中的关键问题

3查询形成

在图像检索开始时，用户将他或她的想象意图表达为具体的视觉查询。查询质量对检索结果有显着的影响。一个好的和具体的查询可以充分降低检索难度，并获得满意的检索结果。一般情况下，查询形式有多种，例如查询图片，草图查询，色彩查询，上下文查询等。如图2所示，不同的查询方式导致了显着的区分结果。下面我们将讨论这些代表性的查询编组

最直观的查询形式是通过示例图像进行查询。也就是说，用户手边有一个示例图像，并希望检索关于相同或相似语义的更多或更好的图像。例如，图片持有者可能想要检查他的图片是否在未经他许可的情况下在某些网页中使用; 网络警察可能要检查出现在网络图像或视频中的恐怖主义标识以进行反恐。为了消除背景的影响，可以在示例图像中指定边界框来限制查询的感兴趣区域。由于示例图像是客观的，没有人工干预，所以在此基础上进行定量分析，以指导相应算法的设计。因此，图片查询是基于内容的图像检索研究中探索最为广泛的一种查询形式[9] [10] [35] [36]

除了通过例子查询之外，用户还可以用示意图表示他的意图[37] [38]。这样，查询就是一个轮廓图像。由于草图更接近于语义表示，因此倾向于从语义角度帮助从用户的脑海中检索目标结果[37]。初步的基于素描的检索工作仅限于搜索特殊的艺术作品，如剪贴画[39] [40]和简单模式[41]。作为一个里程碑，自然图像的基于草图的检索的代表作品是边缘[42]。素描也被用于一些图像搜索引擎，如Gazopa6和Retrievr7。但是，基于草图的查询有两个不平凡的问题。首先，尽管一些简单的概念，如太阳，鱼和花，可以被容易地解释为简单的形状，但是在大多数时候，用户难以快速勾画出他想要搜索的内容。其次，由于数据库中的图像通常是自然图像，因此需要设计特殊的算法将其转换为符合用户意图的草图

另一个查询形式是彩色地图。用户可以在一个给定的网格调色板中指定颜色的空间分布来生成一个颜色图，该颜色图用作查询来在图像平原的相关区域中检索具有相似颜色的图像[43]。基于色彩映射的查询可以很容易地通过用户交互来提高检索结果，但受限于潜在的表示概念。此外，色彩或光照变化在图像捕捉中普遍存在，这对色彩特征的依赖性造成严重的挑战。

上述查询格式便于用户输入，但仍可能难以表达用户的语义意图。为了缓解这个问题，Xu等人提出在图像平原[44] [45]的某些特定布局中用文本词概念形成查询。这种结构化的对象查询也在[46]中用潜在排序的SVM模型进行了探索。这种查询特别适合用于当对象识别结果准备好用于数据库图像和查询时用上下文搜索广义对象或场景。

值得注意的是，在大多数现有工作采用的上述查询方案中，查询采取的是单个图像的形式，这在某些情况下可能不足以反映用户的内涵。如果提供多个探测图像作为查询，则希望一些新策略协作地表示查询或者融合每个单个探针的检索结果[47]。这可能是一个有趣的研究课题，特别是在视频检索的情况下，查询时间序列的视频镜头。

4图像表示

在基于内容的图像检索中，关键问题是如何有效地度量图像之间的相似度。由于视觉对象或场景可能经历各种改变或变换，所以直接比较像素级别的图像是不可行的。通常，视觉特征是从图像中提取的，随后被转换成固定大小的矢量用于图像表示。考虑到大规模图像数据库与高效查询响应的矛盾，有必要对视觉特征进行“打包”，以便进行后续的索引和图像比较。为了实现这个目标，使用视觉码本训练的量化被用作特征聚合/池的例程编码处理。此外，作为视觉数据的一个重要特征，空间情境对于提高视觉表征的显着性至关重要

基于以上讨论，我们可以用数学方法制定两幅图像X和X之间的内容相似度在公式1

以上三个问题分别对应于特征提取，特征编码和聚合以及数据库索引。至于特征编码和聚合，它涉及视觉代码本学习，空间上下文嵌入和量化。在本节中，我们将讨论图像表示中关键问题的相关工作，包括特征提取，视觉代码簿学习，空间上下文嵌入，量化和特征聚合。数据库索引留给下一节讨论。

4.1特征提取

传统上，视觉特征是启发式设计的，可以分为局部特征和全局特征。除了那些手工制作的功能之外，近年来也出现了学习型功能的发展。下面我们将分别讨论这两种特征。

4.1.1手工制作的特征

在早期的CBIR算法和系统中，全局特征通常用于通过颜色[48] [43]，形状[42] [49] [50] [51]，纹理[52] [53]和结构[ 54]成一个单一的整体表示。作为具有代表性的全局特征之一，GIST特征[55]在生物学上似乎合理，计算复杂度低，已经被广泛应用于评估近似最近邻搜索算法[56,57,58,59]。全局视觉特征具有紧凑的表示形式和高效的实现方式，非常适合大规模图像数据库中的重复检测[54]，但在目标图像涉及背景杂乱时可能无法正常工作。通常情况下，全局特征可以作为一个补充部分来提高基于局部特征的近似重复图像搜索的准确性[24]。

自从Lowe [60] [8]引入SIFT特征以来，在基于内容的图像检索的许多着作中，局部特征作为常规图像表示被广泛地探索。通常，局部特征提取涉及两个关键步骤，即兴趣点检测和局部区域描述。在兴趣点检测中，对具有特征尺度的一些关键点或区域进行检测，具有较高的重复性。这里的可重复性意味着可以在各种转换或变化下识别兴趣点。常用的检测器包括高斯差分（DoG）[8]，MSER [61]，Hessian仿射检测器[62]，HarrisHessian检测器[63]和FAST [64]。在兴趣点检测方面，实现了对平移和调整大小的不变性。与上述方法不同的是，在没有任何显式检测器的情况下，也可以通过对图像平面进行均匀和密集采样来获得兴趣点[65]

在感兴趣点的检测之后，提取描述符或多个描述符[66]以描述以兴趣点为中心的局部区域的视觉外观。通常，描述符被设计为旋转变化不变，对仿射失真，噪声的添加以及光照变化等具有鲁棒性。此外，还应该具有区别性，以便以高概率正确地匹配单个特征对于大语料库从许多图像的功能。这种性质在大规模视觉应用场景中尤为突出。具有上述优点的最流行的选择是SIFT特征[8]。作为一个变体，SURF [67]被证明具有相当的性能，但效率更高。

在SIFT的基础上进行了一些改进或扩展。在[23]中，Arandjelovic等人通过对原始SIFT描述符进行根归一化来提出了根SIFT。虽然这样的操作很简单，但是显示出显着提高了图像检索的准确性，并且可以很容易地插入许多基于SIFT的图像检索算法[68]。周等人提出生成具有由原始描述符本身确定的两个中间阈值的SIFT描述符的二进制签名[36]。获得的二进制SIFT导致图像检索的新索引方案[69]。刘等人首先通过维对比较生成一个二进制比较矩阵，然后灵活地将矩阵条目划分成每个哈希到一个比特[70]的段。在[21]中，SIFT描述符通过主成分分析（PCA）被转换成5进制代码，并且简单地基于系数符号进行简单的阈值操作。在[71]中，Affine-SIFT（ASIFT）通过改变两个摄像机轴方向参数，即纬度和经度角，模拟了初始图像的一组样本视图，并且有效地覆盖了仿射变换的所有六个参数实现完全仿射不变性

在内部结构较弱的地区提取的SIFT特征具有较差的独特性，可能降低图像检索性能。为了识别和去除这些特征，Dong等人将一个SIFT描述符视为一个从0到255的离散随机变量的128个样本，并利用熵作为度量度量来过滤低熵的SIFT特征[72]。

除了像SIFT这样的浮点特征之外，binaryfeatures还被广泛地探索，并直接从当地的感兴趣区域中提取出来。近来，已经提出了二进制特征BRIEF[73]及其变体，如ORB [74]，FREAK [75]和BRISK [76]，并在视觉匹配应用中引起了极大的关注。这些二进制特征是通过一些简单的强度差异测试计算出来的，这些测试的计算效率非常高。利用汉明距离计算的效率优势，基于FAST检测器[64]的二进制特征可能在大规模图像搜索中具有潜力。在[77]中，Zhang等从DoG检测器检测到的区域局部地区提出了一种新的超短二进制描述符（USB）。 USB实现了快速的图像匹配和索引。此外，遵循二叉SIFT方案[36]，避免了BoW模型中图像检索的昂贵的码本训练和特征量化。二元描述符的综合评估在[78]中提到，

除了像SIFT特征那样局部区域的梯度信息外，边缘和颜色也可以表示为一个紧凑的描述符，产生Edge-SIFT [79]和color-SIFT [80]。作为一个二进制局部特征，Edge-SIFT [79]用提取的Canny边缘检测结果描述了一个局部区域。 Zheng等人从局部区域提取颜色名称特征，进一步将其转换为二进制签名以增强对局部SIFT特征的区分[68]

4.1.2基于学习的特征

除了上述手工制作的视觉特征之外，还可以以数据驱动的方式学习特征用于图像检索。最初用于对象分类的属性特征可以用来表示图像检索的语义特征[81,82]。一般来说，属性词汇可以由人类[84] [85]或一些本体[86]手动定义。对于每一个属性，一个分类器可以用核心训练，基于标记的训练图像集的多个低级视觉特征，并且用于预测未见图像的属性评分[86] [85] [87] [88]。在[89]中，属性特征被采用作为语义意识表示来补偿局部SIFT特征的图像搜索。 Karayev等人学习分类器来预测图像样式并应用它来按照样式搜索和排列图像集合[90]。属性特征的优点在于它提供了一种优雅的方式来逼近视觉语义，从而减少语义鸿沟。

但是，属性特征有两个问题。首先，手工或自动定义一套完整的属性词汇表很困难。

因此，具有有限属性词汇的表示可能偏向于大的和语义上不同的图像数据库。其次，由于需要对数千个属性类别进行分类，所以提取属性特征通常在计算上是昂贵的[81] [86]。

普遍采用概率潜在语义分析（pLSA）模型[91]和潜在狄利克雷分配（LDA）模型[92]等主题模型来学习嵌入图像检索语义的特征表示[93] [94]。

随着深度神经网络（DNN）[65][95] [96]的爆炸性研究，近年来在多个领域已经见证了基于学习的特征的成功。深层次的架构，可以学习到接近人类认知过程的高层次抽象[97]。因此，DNN通过网络中不同层次的激活来提取语义感知特征是可行的。在文献[98]中，通过深度受限的波尔兹曼（Boltzmann）机器（DBN）在局部块中提取特征，该机器通过使用反向传播而被细化。作为DNN家族的典型结构，深度卷积神经网络（CNN）[99]在图像识别和检索的各种任务中展现了最先进的性能[100]。在[101]中，对包括基于内容的图像检索在内的各种应用深度CNN的学习视觉特征的潜力进行了全面的研究。 Razavian等人研究了Alex-Net [99]和VGG-Net [95]，利用最大共用的最后卷积层响应

作为图像检索的图像表示[102]。在文献[103]中，Alex-Net [99]的第六层的激活被作为每个图像的DNN特征取出，其与图像相似度分级水平与包括基于SIFT的BoW特征的传统视觉特征相融合， HSV直方图和GIST。

Recent Advance in Content-based Image Retrieval: A Literature Survey部分翻译

猜你喜欢