【ECCV 2022】《FindIt: Generalized Localization with Natural Language Queries》译读笔记

FindIt: Generalized Localization with Natural Language Queries

摘要:本文提出了FindIt,一个简单而通用的框架,用于统一各种视觉定位和定位任务,包括指代表达理解、基于文本的定位和目标检测。本文架构的关键是一种高效的多尺度融合模块,用来统一多种任务之间不同的定位要求。此外,本文发现标准的目标检测器在统一这些任务时非常有效,不需要任务特定的设计、损失或是预先计算的检测。本文可端到端训练的框架,能够灵活准确地响应各种指代表达、定位或检测查询,适用于零个、一个或多个对象。通过在这些任务上进行联合训练,FindIt在 Referring Expression 和基于文本的定位方面超越了现有技术,并在目标检测方面表现出较好的性能。最后,与优秀的单任务基线相比,FindIt在分布外数据和新类别上具有更好的泛化能力。所有这些都是通过单一、统一和高效的模型实现的。

1 引言

自然语言使人们能够灵活地对图像进行描述性查询。文字查询和图像之间的交互将语言含义与视觉世界联系起来,有助于增强对目标关系、人类对目标的意图和环境交互的理解。学术界已经对视觉定位问题展开了研究,包括短语定位、目标检索和定位、语言驱动的实例分割等任务[62_Flickr30k_Entities, 70_ReferItGame, 60_Revisiting_Image-Language_Networks, 68_Natural_Language_Object_Retrieval, 56_DMN, 80_Structured_Matching_for_Phrase_Localization, 25_Segmentation_from_Natural_Language_Expressions, 21_Contrastive_Learning_for_Weakly_Supervised_Phrase_Grounding]
  指代表达理解(REC)是最受欢迎的视觉定位任务之一,它根据给定的指代文本定位图像中的目标[90_Modeling_Context_in_Referring_Expressions, 55_Generation_and_Comprehension_of_Unambiguous_Object_Descriptions, 70_ReferItGame]。

猜你喜欢

转载自blog.csdn.net/songyuc/article/details/132459850