基于内容的图像检索

以下内容是从360百科上整理的,仅仅为了方便自己查看,请其他人点击原文查看。

出处:https://baike.so.com/doc/539400-571095.html

评价:写的一般吧。随便看看吧,很多技术都很老了。好多年都没更新过了。

基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。典型的CBIR系统,允许用户输入一张图片,以查找具有相同或相似内容的其他图片。而传统的图像检索是基于文本的,即通过图片的名称、文字信息和索引关系来实现查询功能。

这一概念于1992年由T.Kato提出的。他在论文中构建了一个基于色彩与形状的图像数据库,并提供了一定的检索功能进行实验。此后,基于图像特征提取以实现图像检索的过程以及CBIR这一概念,被广泛应用于各种研究领域,如统计学、模式识别信号处理和计算机视觉。

目前相关研究已发展近20年,传统的搜索引擎公司包括Google、百度、Bing都已提供一定的基于内容的图像搜索产品。如:Google Similar Images,百度识图

 

工作流程

基于CBIR 技术的图像检索系统,在建立图像数据库时, 系统对输入的图像进行分析并分类统一建模, 然后根据各种图像模型提取图像特征存入特征库, 同时对特征库建立索引以提高查找效率。而用户在通过用户接口设置查询条件时,可以采用一种或几种的特征组合来表示, 然后系统采用相似性匹配算法计算关键图像特征与特征库中图像特征的相似度, 然后按照相似度从大到小的顺序将匹配图像反馈给用户。用户可根据自己的满意程度,选择是否修改查询条件,继续查询,以达到令人满意的查询结果。

技术概述

CBIR的核心是使用图像的可视特征对图像进行检索。本质上讲,它是一种近似匹配技术,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果,其中的特征提取和索引的建立可由计算机自动完成,避免了人工描述的主观性。用户检索的过程一般是提供一个样例图像(Queryby Example) 或描绘一幅草图(Queryby Sketch) ,系统抽取该查询图像的特征,然后与数据库中的特征进行比较,并将与查询特征相似的图像返回给用户。

CBIR 的实现依赖于两个关键技术的解决:图像特征提取和匹配。

图像特征提取分为两类:①低层视觉,其内容主要包括颜色、形状、纹理等;②语义内容,它包含高层的概念级反应(如"海上升明月"),需要对物体进行识别和解释,往往要借助人类的知识推理。由于目前计算机视觉和图像理解的发展水平所限,使得CBIR还无法真正支持基于语义的图像检索,所以目前研究得较多也比较成熟的检索算法大部分是基于图像的低层特征的,即利用图像的颜色、纹理、形状等特征来检索。 提取后的图像特征数据需要经过索引、降维等处理。首先,图像由特征向量表示,而这些特征向量一般都是高维向量, 在庞大的图像数据库中,对高维向量进行顺序比较的过程是相当费时的。在实际应用过程中, 为了让基于CBIR的图像检索系统能够真正适合大型的图像数据库, 提高检索效率,尽可能减少查询时的特征矢量比较时间,往往将降维技术和多维索引技术结合起来。

图像相似度是指人类对图像内容认识上(即语义)的差异,导致通过计算查询样图和候选图像之间在视觉特征上存在距离。如果这个距离满足一定条件,我们则可以说这两图像相似度匹配。当然,如果能将语义特征和视觉特征结合起来, 相似度匹配程度会更高,检索结果会更让人满意,但这是目前研究的一大难题。

特征提取

底层图像特征包含颜色、纹理、平面空间对应关系、外形,或者其他统计特征。 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。

特征匹配

的认知过程,近似得到数据库的认知排序。常用的距离度量公式有:Minkkowsky距离,Manhattan距离,Euclidean距离,加权Euclidean距离,Chebyshev距离,Mahalanobis距离等。

其中,Manhattan 距离计算简单,效果也较好,被广泛采用;加权Euclidean 距离考虑了不同分量的重要性,也较为常用;Mahalanobis 距离考虑了样品的统计特性和样品之间的相关性,在聚类分析中经常用到。当采用综合特征进行检索时,需要对各特征向量进行归一化,以使得综合特征的各特征向量在相似距离计算中地位相同。

语义鸿沟

英文名称:Semantic Gap

通常人们在判别图像的相似性时并非建立在图像低层视觉特征的相似上,而是建立在对图像所描述的对象或事件的语义理解的基础上。这种理解无法从图像的视觉特征直接获得,它需要使用人们日常生活中积累的大量经验和知识来进行推理和判断。其中,尤其对于一些高层次的抽象概念,如一幅关于节日的图像所表达出的欢乐和喜庆的感觉等,更需要根据人的知识来判断。换言之,人们是依据图像的语义信息来进行图像相似性判别的。正是由于人对图像相似性的判别依据与计算机对相似性的判别依据之间的不同,造成了人所理解的"语义相似"与计算机理解的"视觉相似"之间的"语义鸿沟"的产生。

在传统的基于文字的查询技术中,不存在这个问题,因为查询关键字基本能够反映查询意图。但是在基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异(这也就是著名的semantic gap)。主要原因是底层特征不能完全反映或者匹配查询意图。弥补这个鸿沟的技术手段主要有:

相关反馈(relevance feedback)

按照最初的查询条件,查询系统返回给用户查询结果,用户可以人为介入(或者自动)来选择几个最符合他查询意图的返回结果(正反馈),也可以选择最不符合他查询意图的几个返回结果(负反馈)。这些反馈信息被送入系统用来更新查询条件,重新进行查询。从而让随后的搜索更符合查询者的真实意图。

图像分割(image segmentation)

图像的特征可以包括全局特征和局部特征。如果进行一定程度的图像分割,划分出不同的分割区域,这样可以增加局部特征的信息量,也可能在一定程度弥补语义鸿沟。

建立复杂的分类模型(Machine Learning)

一些比较复杂的非线性分类模型,比如支持向量机(Support Vector Machine)本身就可以起到一定程度的效果来弥补语义鸿沟。

应用和研究

最早成功应用基于内容的图像检索技术的是IBM的QBIC系统。这个系统是为一个俄国博物馆制作的绘画作品查询系统。QBIC系统的网站为IBM的QBIC系统。除了IBM的QBIC系统之外,比较著名的系统还包括UIUC大学的MARS系统 、MIT的Photobook 、 UC Berkeley的Digital Library Project ,以及Columbia大学的VisualSEEk 等。

猜你喜欢

转载自blog.csdn.net/pengchengliu/article/details/86217602