计算机视觉面试题:图像检索专题

从20世纪70年代开始,有关图像检索的研究就已开始,具体方向包括基于文本的图像检索技术(Text-based Image Retrieval,TBIR)和基于内容的图像检索(Content-based Image Retrieval,CBIR)。其中TBIR利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等来检索图像,CBIR利用图像的颜色、纹理、布局等进行内容分析来检索图像。

电商图像具备的时尚元素,主要可以按照类别进行划分在电商平台(淘宝、京东、拼多多)拥有海量的商品图像信息,如果采用TBIR的技术思路,则需要在检索之前需要对海量的图片进行语义属性的标注,这种标注有主观性偏差。CBIR不需要人工标注,且可以根据数据内容进行有效理解,也是现有电商「以图搜图」业务的主要技术路线。

电商商品检索:通过对电商图像进行特征提取,获得特征表示,进行相似性度量,度量学习,根据相似性排序,得到检索结果。

淘宝图像检索逻辑,基本上包括图像向量化处理、向量索引和向量检索几个步骤。

图像检索重难点

  1. 检索商品背景杂乱:现有电商图像拥有的商品类别较多,且商家广告和商品非主体信息都会影响检索精度。因此需要尝试使用目标检测(比如Faster-RCNN)RPN定位感兴趣的区域,然后在进一步地学习特征比较相似度。
  2. 类内差异性与类间相似性:现有电商图像类别内差异较小,利用使用特征之间的余弦距离很难区分具体类间差异。因此需要尝试加入底层特征的语义信息,并与高层特征信息加权,对底层和高层语义特征兼顾。
  3. 特征大小和检索速度:特征是一个高纬矢量,维度越高信息越多,但带来的检索速度也会下降。因此需要对特征进行量化或者降维操作,以此来提升检索的速度。或 通过识别目标主体的品类,使得在检索时可以在该类别的数据子库进行搜索,提升检索的效果与效率。

猜你喜欢

转载自blog.csdn.net/weixin_45955767/article/details/121759050