【ECCV 2022】《FindIt: Generalized Localization with Natural Language Queries》译读笔记

企业开发 2023-08-26 17:29:24 阅读次数: 0

FindIt: Generalized Localization with Natural Language Queries

摘要：本文提出了FindIt，一个简单而通用的框架，用于统一各种视觉定位和定位任务，包括指代表达理解、基于文本的定位和目标检测。本文架构的关键是一种高效的多尺度融合模块，用来统一多种任务之间不同的定位要求。此外，本文发现标准的目标检测器在统一这些任务时非常有效，不需要任务特定的设计、损失或是预先计算的检测。本文可端到端训练的框架，能够灵活准确地响应各种指代表达、定位或检测查询，适用于零个、一个或多个对象。通过在这些任务上进行联合训练，FindIt在 Referring Expression 和基于文本的定位方面超越了现有技术，并在目标检测方面表现出较好的性能。最后，与优秀的单任务基线相比，FindIt在分布外数据和新类别上具有更好的泛化能力。所有这些都是通过单一、统一和高效的模型实现的。

1 引言

自然语言使人们能够灵活地对图像进行描述性查询。文字查询和图像之间的交互将语言含义与视觉世界联系起来，有助于增强对目标关系、人类对目标的意图和环境交互的理解。学术界已经对视觉定位问题展开了研究，包括短语定位、目标检索和定位、语言驱动的实例分割等任务[62_Flickr30k_Entities, 70_ReferItGame, 60_Revisiting_Image-Language_Networks, 68_Natural_Language_Object_Retrieval, 56_DMN, 80_Structured_Matching_for_Phrase_Localization, 25_Segmentation_from_Natural_Language_Expressions, 21_Contrastive_Learning_for_Weakly_Supervised_Phrase_Grounding]。
指代表达理解（REC）是最受欢迎的视觉定位任务之一，它根据给定的指代文本定位图像中的目标[90_Modeling_Context_in_Referring_Expressions, 55_Generation_and_Comprehension_of_Unambiguous_Object_Descriptions, 70_ReferItGame]。

猜你喜欢

转载自blog.csdn.net/songyuc/article/details/132459850

【ECCV 2022】《FindIt: Generalized Localization with Natural Language Queries》译读笔记

A Generalized Loss Function for Crowd Counting and Localization阅读笔记

论文笔记：Tracking by Natural Language Specification

Watson Natural Language Understanding

NLTK：Natural Language Toolkit

Standard Generalized Markup Language：XML

COMS W4705: Natural Language Processing学习笔记(一)

EMCDS认证学习笔记-Module3 Natural Language Processing

《Natural Language Processing with Python》读书笔记 004期

《Natural Language Processing with Python》读书笔记 003期

《Natural Language Processing with Python》读书笔记 002期

《Natural Language Processing with Python》读书笔记 001期

学习笔记之自然语言处理（Natural Language Processing）

【论文笔记】Controllable Natural Language Generation with Contrastive Prefixes

论文笔记 --《Unified Language Model Pre-training for Natural Language Understanding a

ECCV 2018 论文阅读笔记——Acquisition of Localization Confidence for Accurate Object Detection

Natural Language Process 资源汇总

Lecture 15: Natural Language Generation

Natural Language Comprehension with the EpiReader翻译

什么是Natural Language Understanding(NLU)？

什么是Natural Language Generation(NLG)？

arxiv2022 | MolT5：Translation between Molecules and Natural Language

XLNet: Generalized Autoregressive Pretraining for Language Understanding

【论文阅读】SQLNet: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE WITHOUT REINFORCEMENT LEARNING

ImportError: No localization support for language ‘eng’ in python

Neural Network Methods for Natural Language Processing 读书笔记5 —— RNN

Neural Network Methods for Natural Language Processing 读书笔记3 —— 语言模型和词向量

Neural Network Methods for Natural Language Processing 读书笔记2 —— 文本中的特征

Neural Network Methods for Natural Language Processing 读书笔记1 —— 神经网络入门

Neural Network Methods for Natural Language Processing 读书笔记4 —— CNN

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)