論文読解 - (GLIP) グラウンデッド言語イメージ事前トレーニング (ターゲット検出 + 測位)

論文：Grounded Language-Image Pre-training

コード：https://github.com/microsoft/GLIP

序章：

位置決めタスクは画像検出タスクとよく似ています。画像内のターゲットオブジェクトの位置を見つけることです。ターゲット検出は画像を与えて境界ボックスを見つけることであり、位置決めは画像とテキストを与えることですをクリックし、テキストに従ってオブジェクトを見つけます。GLIP モデルは、物体検出と接地という 2 つのタスクを統合し、両方のタスクのデータセットを利用するための統合トレーニングフレームワークを構築します。データを増幅する擬似ラベル技術と組み合わせることで、トレーニングデータの量は前例のない規模に達しました。トレーニングが完了すると、COCO データセット上でゼロショット方式で直接テストされ、49.8 AP に達します。
GLIP のゼロショットテストの結果は、複数のカテゴリ (人物、ピストル、リンゴなど) または特定の段落 (「道路にいくつかの穴があります」など) に指定されているかどうかに関係なく、次の図に示されています。テキストエンコーダ入力として、GLIP モデルは画像から対応するオブジェクトの位置を見つけることができます。

2 つのタスクを統合する方法:

検出タスクとグルーディングタスクの両方の目的関数は、分類損失と位置特定損失という 2 つの損失部分で構成されます。位置ずれについては言うまでもなく、ラベル内のGTボックスからの距離を計算するだけです。

1. 分類損失の場合は異なります。検出タスクの場合、分類ラベルはカテゴリ単語です。分類損失を計算するとき、各エリアボックスフィーチャと分類ヘッドのロジットが計算されます。出力ロジットが nms でフィルタリングされた後、クロスエントロピー損失を計算できます。 GTと一緒に。

ターゲット検出の場合、画像 Img が与えられると、領域埋め込みは画像のバックボーンを通じて取得されます。O は N*d の領域埋め込みです。つまり、n 個の境界ボックスがある場合、各境界ボックス埋め込みの次元は d です。。次に、分類ヘッドを接続して、境界ボックス内のオブジェクトがどのカテゴリであるかを決定します。分類ヘッド W は c*d の次元を持つ行列で、c はカテゴリの数です。領域の埋め込みと W を乗算して、最終的な分類の logits S を計算し、次に mns を使用して境界ボックスをフィルターし、groundtruth を使用してクロスエントロピーを計算して最終的な損失を取得します。

2. ビジョングラウンディングタスクの場合、ラベルは文であり、分類ヘッダーを使用する代わりに、テキストエンコーダーを通じてテキスト特徴を取得し、テキスト特徴とエリアボックス特徴の間の類似性を計算してマッチングスコアを取得します。 . 画像領域と文中の単語がどのように一致するかを確認したい。

画像 Img が与えられた場合、画像のバックボーンを通じて領域埋め込みを取得し、テキストエンコーダに文を入力してテキスト埋め込みを取得し、テキスト埋め込みと画像の領域埋め込みの類似性を計算します。

3. 著者は、2 つのタスクが正一致する場合と負一致する場合を判断すれば、2 つのタスクを統合できると提案します。理論分析の後、著者は、以前のターゲット検出フレームワークと同じ統一フレームワークを使用して COCO データセット上の指標を検証し、自分のアイデアを実験的に検証しました。

データセット:

検出と接地という 2 つのタスクが統合されているため、最も直接的な利点は、両側のデータセットをこの統合フレームワークのトレーニングに使用できることです。つまり、次の図に示す 2 つのデータセット O365 と GoldG です。これらのデータセットにはラベルが付いていますが、スケールが十分に大きくありません。さらに大量のデータを取得したい場合は、CLIPのようなラベルなしの画像とテキストのペアデータを使用する必要があります。ただし、ターゲット検出タスクのトレーニングには GT ボックスが必要であり、個別のグラフィックスとテキストをデータに直接使用することはできません。著者は、ここでの自己学習で擬似ラベル法を使用し、O365 と GoldG で学習した GLIP-T (c) を使用して画像とテキストのペアデータ Cap4M/Cap24M に擬似ラベルを生成し、それらを直接 GT ボックスとして使用します。トレーニング用のGLIP-T/L。生成された擬似ラベルにはエラーが含まれているはずですが、実験では、多数の擬似ラベルデータを拡張することでトレーニングされた GLIP-L モデルが依然としてパフォーマンスを向上させることが示されています。

モデル構造:

1. GLIP モデルの構造とトレーニングの目的は次の図に示されています. モデルは教師ありでトレーニングされます. テキスト特徴と画像特徴の間の類似性を計算した後, GT を使用して位置合わせ損失 (位置推定) を直接計算できます. loss) も GT ボックスで直接計算されます。

2. モデルの中央にある融合層 (フュージョン) は、画像エンコーダーとテキストエンコーダーの間の特徴の相互作用を強化し、最終的な画像とテキストの結合特徴空間をより適切にトレーニングできるようにします。

定量的実験結果:

GLIP の定量的な実験結果を下図に示しますが、GLIP モデルはゼロショットターゲット検出を実行でき、AP 49.8 を達成できます。COCO で微調整すれば、GLIP の AP は最良の監視付きメソッドの一部を超える可能性があります。

GLIPv2

論文：GLIPv2: ローカリゼーションと視覚言語理解の統合

コード：https://github.com/microsoft/GLIP

GLIP のさらなる拡張である GLIPv2 には、より多くのローカリゼーション関連タスク (例: 検出、インスタンスのセグメンテーション) およびより多くのマルチモーダル関連タスク (例: 質問応答、字幕生成) が組み込まれています。

論文読解 - (GLIP) グラウンデッド言語イメージ事前トレーニング (ターゲット検出 + 測位)

おすすめ