【ECCV 2022】『FindIt: 自然言語クエリによる汎用ローカライゼーション』翻訳ノート

FindIt: 自然言語クエリによる一般化されたローカリゼーション

要約:この文書では、参照表現の理解、テキストベースのローカライゼーション、オブジェクト検出など、さまざまな視覚的ローカライゼーションおよびローカライゼーション タスクを統合するためのシンプルで一般的なフレームワークである FindIt について説明します。この論文のアーキテクチャの鍵となるのは、複数のタスク間で異なるローカリゼーション要件を統合するために使用される、効率的なマルチスケール フュージョン モジュールです。さらに、標準の物体検出器は、タスク固有の設計、損失、事前計算された検出を必要とせずに、これらのタスクを統合するのに非常に効果的であることがわかりました。当社のエンドツーエンドのトレーニング可能なフレームワークは、ゼロ、1 つ、または多数のオブジェクトに適用できる、さまざまな参照表現、位置特定、検出クエリに柔軟かつ正確に応答できます。これらのタスクを共同でトレーニングすることにより、FindIt は参照表現とテキストベースのローカリゼーションにおいて最先端技術を上回り、オブジェクト検出においてより優れたパフォーマンスを示します。最後に、FindIt は、優れた単一タスクのベースラインよりも、分布外のデータや新しいカテゴリをより適切に一般化します。これらすべては、単一の統合された効率的なモデルを通じて実現されます。

1 はじめに

自然言語を使用すると、画像に対して記述的なクエリを柔軟に実行できます。テキストのクエリと画像の間の相互作用は、言語的な意味を視覚的な世界に結び付け、オブジェクトの関係、オブジェクトに対する人間の意図、および環境の相互作用の理解を深めるのに役立ちます。視覚的なローカリゼーションの問題は、フレーズ ローカリゼーション、オブジェクトの検索とローカリゼーション、言語駆動型インスタンス セグメンテーションなどのタスクを含め、学術界で研究されています [62_Flickr30k_Entities、70_ReferItGame、60_Revisiting_Image - Language_Networks68_Natural_Language_Object_Retrieval56_DMN80_Structured_Matching_for_P hrase_Localization 25_Segmentation_from_Natural_Language_Expressions 21_Contrastive_Learning_for_Weakly_Supervised_Phrase_Grounding ]
  参照表現理解 (REC) は、最も一般的な視覚的ローカリゼーション タスクの 1 つであり、参照テキスト [ 90_Modeling_Context_in_Referring_Expressions55_Generation_and_Comprehension_of_Unambiguous_Object_Descriptions70_ReferItGame ]。

おすすめ

転載: blog.csdn.net/songyuc/article/details/132459850