[CVPR2023] DetCLIPv2: 単語領域アライメントによるスケーラブルなオープンボキャブラリーオブジェクト検出の事前トレーニング...

3ef64e52d8a9f46a40f32416316e6aaf.png

論文のタイトル: DetCLIPv2: 単語領域アライメントによるスケーラブルなオープン語彙オブジェクト検出の事前トレーニング

コード: オープンソースではありません

導入

この論文は、革新的なオープンボキャブラリーターゲット検出フレームワーク DetCLIPv2 を提案し、オープンボキャブラリーターゲット検出の分野に新たなブレークスルーをもたらします。従来のターゲット検出方法では、通常、事前定義されたターゲット カテゴリが必要ですが、実際のアプリケーションでは、未知のカテゴリのターゲットを検出する必要があることがよくあります。これは、いわゆるオープンボキャブラリーターゲット検出 (OVD) です。

DetCLIPv2 の独自性は、教師モデルによって提供される擬似ラベルに依存せず、検出、位置特定、画像とテキストのペアを含むマルチソース データを共同でトレーニングすることで、位置特定機能と情報の知識の同時学習を実現することです。幅広いコンセプト。さらに、対照学習を使用してデータの画像およびテキスト検出学習をガイドし、パフォーマンスをさらに向上させます。大規模な画像テキストペアデータの計算の複雑さに対処するために、DetCLIPv2 は低解像度の入力を使用することで、パフォーマンスを維持しながらトレーニング効率を向上させます。実験により、LVIS ベンチマーク テストで DetCLIPv2 が大幅なパフォーマンス向上を達成することが証明されました。

この記事への寄稿

  • DetCLIPv2 フレームワーク: この文書では、エンドツーエンドのオープンボキャブラリーオブジェクト検出事前トレーニングフレームワークである DetCLIPv2 を紹介します。このフレームワークにより、モデルはターゲット カテゴリの事前定義リストを必要とせずに未知のカテゴリのターゲットを識別できるため、さまざまな実際のアプリケーション シナリオのニーズを満たすことができます。

  • 教師モデルに依存しない: 他の方法とは異なり、DetCLIPv2 は疑似ラベルを提供したり、トレーニング プロセスをガイドしたりするために教師モデルに依存しません。検出、ローカリゼーション、画像とテキストのペアなど、複数のデータ ソースで共同トレーニングすることで、ローカリゼーション機能と幅広い概念の知識を同時に学習します。

  • 対比学習ガイダンス: 画像テキストを効果的に使用してデータを検出するために、DetCLIPv2 は、最適マッチングに基づく集合類似性手法を採用して対比学習をガイドし、パフォーマンスを向上させます。

  • 低解像度入力: データ上の大規模な画像テキストによって引き起こされる計算負荷を軽減するために、DetCLIPv2 は低解像度入力を使用し、それによってトレーニング効率を向上させます。

関連作業

視覚言語事前トレーニング (VLP) : 従来の視覚言語モデルは通常、視覚的質問応答 (VQA) や画像字幕生成などの特定のタスク向けに設計されています。最近の傾向は、大規模かつ低コストの画像とテキストのペアを活用して、一般的な視覚言語表現学習システムを開発することです。たとえば、CLIP と ALIGN は、何百万もの画像とテキストのペアを活用してクロスモーダル対比学習を実行し、印象的なゼロショット画像分類パフォーマンスを達成します。

DetCLIPv2 に関連する研究: 最も関連性のある研究は FILIP です。FILIP は、画像とテキストの位置合わせをより容易にするために、単語と画像のパッチの類似性に基づいたクロスモーダルのポストインタラクション メカニズムを提案しています。ただし、このアイデアをオープン語彙検出システムの構築に適用するのは簡単ではありません。提案した方法は解決策を提供します。

Open Vocabulary Object Detection (OVD) : OVD は、無限の概念のオブジェクトを検出するための、より一般的で実用的なオブジェクト検出パラダイムとして近年登場しました。視覚言語の事前トレーニングの成功に触発されて、最近の研究では、事前トレーニングされた視覚言語モデルの知識を検出器に転送する方法が提案されています。もう 1 つの効果的なアイデアは、低コストの画像とテキストのペアなど、より広範囲のトレーニング データ ソースを利用して、疑似アノテーション プロセスを通じて領域範囲を拡大することです。

半教師あり物体検出 (SSOD)および弱教師あり物体検出 (WSOD) : これらの方法は、利用可能なラベル付きデータに加えてラベルなしデータを活用することにより、物体検出システムを改善することを目的としています。ただし、通常は、ラベルなしデータ内のカテゴリがラベル付きデータでカバーされる必要があるというクローズド ドメイン設定を前提としています。これらの分野の方法とは異なり、DetCLIPv2 は、大規模な画像とテキストのペアから無限の概念を学習することにより、オープンワールドのオブジェクト検出器を構築するための、より挑戦的なオープン ドメイン設定を考慮しています。

この記事のメソッド

7ba9386c91b2db9ccd7b7496f50c9721.png

この記事で提案する方法を図 3 に示します。DetCLIPv2 は、検出、位置特定、イメージオンデータの共同トレーニングをエンドツーエンド方式で実行します。アーキテクチャには次の主要コンポーネントが含まれています。

  • 画像エンコーダ: 入力画像から領域埋め込み f P を抽出するために使用されます。このコンポーネントは、モデルが画像内の視覚情報を理解するのに役立ちます。

  • テキスト エンコーダ: 入力名詞句の単語埋め込み f T を計算するために使用されます。このコンポーネントは、モデルがテキスト情報を理解するのに役立ちます。

強力なオープンワールドの物体検出システムを構築するために、DetCLIPv2 はさまざまなデータ ソースからのデータ、つまり検出、位置特定、画像とテキストのペアを事前トレーニングに使用します。この方法の主な手順は次のとおりです。

  • 統一データの定式化(セクション 3.1)

  • きめの細かい対照学習(セクション 3.2)

  • モデルのアーキテクチャとトレーニングの目標(セクション 3.3)

  • 共同訓練の詳細(セクション 3.4)

1. 統一的なデータ構築

まず、この記事では並列定式化を使用して、さまざまなソースからのデータ形式を統一しています。形式はトリプルの形式になっています。

746264a088c20e7f24cf96a76bee4273.png

ここで、x は画像、bi と tj はそれぞれ境界ボックスの注釈のセットと概念名を表します。このトリプルの構築方法は、データの種類によって異なります。

検出データ (検出) : T は、データ セット内でサンプリングされたクラス名から構築され、画像に表示されるクラスと、ランダムにサンプリングされたその他の負の例のクラスで構成されます。さまざまな概念間の関係を明確に提供するために、この記事では、トレーニングとテストの両方のフェーズで概念強化テクノロジを適用します。つまり、各 tj は、カテゴリ名と対応する定義を接続することによって取得されます。

グラウンディング: 最初に元のタイトルから名詞句 (注釈で提供) を抽出して、肯定的な概念セットを形成します。

f6e9f7ea6878c122c0fc7cec933d5178.png
学習に十分な否定概念を提供するために、タイトルに含まれていない否定概念のセットも構築された概念辞書からランダムに抽出されます。 597abcd464c0b032737b92d69e573423.png
カテゴリ名の最終セットは、T = Tpos ∪ Tneg で構成されます。

画像とテキストのペア: インスタンスレベルの注釈がないため、

fe4619cb8c615dfe4395e5aff5484acb.png
T は、元のタイトルと、タイトルから抽出された名詞句で構成されます。

検出および位置特定データの場合、各 bi には概念 tj がタグ付けされるため、オープン語彙のターゲット検出学習が可能になります。

この記事で採用されているアーキテクチャには、公開語彙オブジェクトの検出を実行するための画像エンコーダとテキスト エンコーダが含まれています。画像エンコーダは、画像 x を入力として受け取り、一連の領域提案 P とその分類特徴を出力する任意形式のオブジェクト検出器です。

1f4c665b3be0d78ef1eb19b3d5234952.png
テキスト エンコーダは、各概念名 tj を文として扱い、すべての tj をテキスト エンコーダに個別に送信して、文の埋め込みを取得します。 8aad755c68dbf99bfedfeba9d2842387.png

陰性サンプルの数を増やす必要がある場合、この記事では、

19f5b2e7dd1d690b089366e3601639b2.png
バッチ内のさまざまなサンプルに含まれる重複した概念を削除し、要約されたテキストの埋め込みを実現します。 ad3c038c20597fff4a1af38370de8d9f.png

次に、計算してみると、

3cb7765a4db61c133ccbfaeb2a23c5d3.png
そして d1a9bbc370bed44b6f614c69d77eece9.png
類似度行列 S ∈ RK×MB を使用して類似度行列を取得し、次のように計算されます。 821b9809494b147992f38e31125cd335.png

インスタンスレベルのアノテーションが利用可能な場合、たとえば検出データや接地データなど、従来のオブジェクト検出フレームワークの GT 割り当てプロセスに従ってオブジェクト マトリックスを構築できます [41、48、58]。

685f1bb78eba8903cbba1cb119fb58f9.png
、アライメント損失を計算することができます
(詳細についてはセクション 3.3 を参照); インスタンスレベルの注釈が利用できない画像とテキストのペアのデータについては、セクション 3.2 でその方法について詳しく説明します。
2. きめ細かい比較学習

このセクションでは、DetCLIPv2 が大規模な画像とテキストのペア データから学習して、インスタンス レベルのアノテーションに依存せずに、きめ細かい単語領域の対応を実現する方法を紹介します。この学習方法には、次の主要な手順が含まれます。

単語領域の配置の類似性: 画像とテキストのペアが指定された場合

04bd746519f103590c98eea1066947f3.png
、 xT から名詞句のセットを抽出し、 b1333980b8b1b17259bac3e828cbab56.png
モデルへの入力として。

画像エンコーダは一連の提案を生成します

0c9e418ffb052349122d8164b7922ca6.png
、テキストエンコーダーが名詞句を抽出します dc7f87d4cbe8449d25b62c4245a3c0c2.png
テキストの埋め込み def725ebd889cb649b39622ccca0861f.png

単語領域のアライメントの対照学習は、P と T の間の類似度の設定に基づいて構築されます。T の j 番目の概念 tj については、次の式を計算することで P での最適な一致を見つけます。

130b1692923edddd1473452389403e4a.png

次に、すべての単語領域の類似度を合計することで、テキストと画像の類似度が計算されます。

1ee70eb4256cae207bd5c0b89ac7eb3a.png
、次のように: e4389e89dbdedbd6d417a68ef59f6d5d.png

もう 1 つの合理的な考慮事項は、各テキスト概念が複数の領域に対応する必要があるということです。このデザインは、ソフト最大重み付けと、テキストの概念とすべての視覚領域間の類似性を使用してモデル化できます。つまり、次のとおりです。

01206aa2bb0b842d393906d7b4e9a404.png

画像とテキストの対比損失: 導入された単語領域の位置合わせの類似性に基づいて、画像とテキストのペア間で標準的な対比学習を実行できます。具体的には、画像とテキストのペアのバッチ B の場合、

299a48a11de7feb73e70d62b9973ce7c.png
、コントラストの損失は次のように表すことができます。 db73e180dbbce2f083e0e498131a10f3.png

インターネットからクロールされた画像およびテキスト データの部分的なラベル付けの問題があるため、DetCLIPv2 ではテキストから画像へのコントラストの損失のみが考慮され、画像からテキストへのコントラストの損失は考慮されていないことに注意してください。テキストは、画像内のオブジェクトの小さなサブセットを説明するだけです。データの大部分では、テキストは画像に表示されるオブジェクトのごく一部のみを説明します。つまり、ほとんどの領域提案では、タイトル テキスト内で対応する一致を見つけることができません。画像とテキストのマッチングを含めると、パフォーマンスが大幅に低下する可能性があります。

提案の選択: テキストの概念との類似性を計算するために最も代表的な画像領域を選択するため、つまり、モデルがテキストと画像の間の関連性をよりよく学習できるように、テキストの説明に最も関連する領域を選択したいと考えています。DetCLIPv2 は、プロポーザル選択戦略を採用しています。モデルは、候補領域ごとに、ローカル バッチ内のすべてのテキスト概念との類似度を計算し、最大の類似度をオブジェクト性スコアとして使用します。

この設計の利点は 2 つあります: 1 つ目は、テキストの説明に最も関連する領域を選択すること、2 つ目は、他のテキストで説明されている難しい否定的な概念を選択することで、対比学習を促進することです。DetCLIPv2 は、客観性スコアに従って、NMS 操作後に上位 k 個のプロポーザルを選択します。

3. モデルのアーキテクチャとトレーニングの目的

モデル アーキテクチャ: DetCLIPv2 は、バニラ ATSS 検出器に基づくアーキテクチャを使用し、Transformer ベースのテキスト エンコーダを備えています。DetCLIP の特別な設計は、分類ヘッダーの先頭に軽量の変形可能な畳み込みを挿入することです [61]。

分類ヘッドに変形可能な畳み込み層を導入することにより、モデルの分類ヘッドと回帰ヘッドの間に相関関係が確立され、勾配信号が分類ヘッドから回帰ヘッドに流れることが可能になります。このようにして、モデルの回帰頭部は、監視信号 (画像とテキストのペアのトレーニングなど) なしでトレーニングされた場合でも、大規模な画像とテキストのペアでのトレーニングから恩恵を受けることができます。この設計の鍵は、バックボーン フィーチャのより適切な空間集約を学習することで、回帰ヘッドがより優れたターゲット位置特定機能を取得できるため、ターゲット検出タスクにおけるモデル全体のパフォーマンスが向上することです。

トレーニング目標: DetCLIPv2 の全体的な目標は次のように表すことができます。

3621da409afe029ae756d2ac6d6c92a2.png

Lalign: アライメント損失。モデルのアライメント能力を測定するために使用されます。

Lcts: 画像とテキスト間の関連性を学習するためのコントラスト損失。

Lreg: 回帰損失。ターゲットの位置を特定するために使用されます。

Lcenter: 中心性の喪失。モデルがターゲットの中心をより適切に特定できるようにするために使用されます。

4. 共同訓練

DetCLIPv2 は、トレーニング プロセス中に異種データセットを使用した共同トレーニングを実行します。トレーニング中、同じタイプに属するデータはグローバル バッチにグループ化されます。各反復では、トレーニング用に 1 種類のデータが選択されます。さまざまなタイプのデータが、さまざまな入力解像度とバッチ サイズを使用してトレーニングされます。具体的には:

  • 検出およびグラウンディング データの場合は、トレーニングに高解像度の入力と小さいバッチ サイズを使用します。これは、ターゲットの正確な位置決めを向上させるのに役立ちます。

  • 画像とテキストのペアの場合は、低解像度の入力と大きなバッチ サイズを使用します。これにより、対照学習におけるネガティブ サンプルの数が増加し、大規模な画像とテキストのペアのトレーニング コストが大幅に削減されます。

実験

実験結果

LVIS データセットでのゼロショット パフォーマンス:

2a6195e70453fd6af6eec0eed17d4cce.png

特に、DetCLIPv2 のモデルはゼロショット モードで完全に監視されたモデルを上回っています。

微調整による移行パフォーマンス:

885085edb9b20a82ae13479b57c37b5b.png

視覚的分析:

CC12M などの画像とテキストのペア データに対する単語領域のアライメント学習効果:

9d7a21f02ae715525327aea3e895cd4f.png
アブレーション実験

提案の選択戦略:

7a49049edf792ab5ebd6ac7e72a782dc.png

単語領域の調整戦略:

43cfef7af78ad28ca81da8c0cb97e444.png

提案数量 k:

d2bdb9ef90c8b60b460e37f69b10c21d.png

コントラスト損失設計:

c01c4462c5bdda27d16c0be67641425d.png

温度と損失重量:

0f0f9114394af83df4958141f3b09134.png

変形可能なモジュールの有効性:

a008b96807a2bc04fc016ef80e5768d9.png

より多くのデータを融合すると、以下の学習に役立ちます。

c1ea07b92e028983827e13890779ddb4.png

DetCLIPv2 と GLIP および DetCLIP のトレーニング効率:

9359db834620d40c5bf849b2a9564c7c.png

結論は

この論文では、オープンボキャブラリーオブジェクト検出のための統合されたエンドツーエンドの事前トレーニングフレームワークである DetCLIPv2 を提案します。比較ターゲットをガイドするために領域と単語の間の最適なマッチングセットの類似性を使用することで、大規模な画像とテキストのペアを効果的に活用してオブジェクト検出タスクを実行します。実験によると、DetCLIPv2 はオープンボキャブラリーのパフォーマンスと広いドメインのカバー範囲において優れていることが示されています。私たちの方法は、画像とテキストのペアの規模をさらに拡大することでオープンエンドの検出を達成する可能性のある方法を提供し、この方向性は将来の研究に委ねることができます。

制限

私たちの方法は、画像とテキストのペアを拡大することでオープンワールド検出を実現する可能な方法を提供します。ただし、その位置特定機能は依然として、検出データで提供される境界ボックスの注釈に大きく依存しています。ローカリゼーションの汎化パフォーマンスを向上させるために、堅牢なオープンワールド領域提案のための [26] のようなアーキテクチャを設計することは、将来の研究の有望な方向性です。さらに、インターネットからクロールされた画像とテキストのペアにはノイズが多く、記述が著しく不完全であるため、[28] で提案されているように、単語領域のアライメントの学習効率が損なわれ、データ品質を向上させるためのさらなる設計が必要になります。検出データを超えて画像とテキストのペアをさらにスケールアップする場合、トレーニングの不均衡によりパフォーマンスが損なわれる可能性があり、これについても将来的に調査する必要があります。

☆終わり☆

これが表示された場合は、この記事が気に入っていることを意味します。転送して「いいね!」してください。WeChat で "uncle_pn" を検索してください。編集者の WeChat "woshicver" を追加することを歓迎します。高品質のブログ投稿が友達の輪に毎日更新されます。

QRコードを読み取ってエディタを追加↓

7f748a643f7a6487d511171a73f45d81.jpeg

おすすめ

転載: blog.csdn.net/woshicver/article/details/133565275