VLT: 参照ビジョン言語変換およびクエリ生成セグメンテーションのためのビジョン言語トランスフォーマー

まとめ

この研究では、引用の分割という困難なタスクに取り組みます。参照セグメンテーションのクエリ式は通常、他のオブジェクトとの関係を記述することによってターゲット オブジェクトを表します。したがって、イメージ内のすべてのインスタンスの中からターゲット インスタンスを見つけるには、モデルがイメージ全体を包括的に理解する必要があります。これを達成するために、参照セグメンテーションを直接関係する問題、つまりクエリ言語式が最も関係する画像内の領域を見つける問題として再定式化しますトランスフォーマーとマルチヘッド アテンションを導入して、指定された画像を口頭で「クエリ」できるエンコーダー/デコーダー アテンション メカニズム アーキテクチャを備えたネットワークを構築します。さらに、さまざまな側面からの言語表現のさまざまな理解を表す、異なる注意の重みを持つ複数のクエリのセットを生成するクエリ生成モジュールを提案します。一方、視覚的な手がかりに基づいてこれらの多様な理解から最適な方法を見つけるために、より良いマスク生成のためにこれらのクエリの出力特徴を適応的に選択するクエリバランシングモジュールをさらに提案します。私たちの方法は軽量であり、3 つの参照セグメンテーション データセット RefCOCO、RefCOCO+、および G-Ref で一貫した新しいパフォーマンスを達成します。

 私たちの方法は、言語表現を強調または理解する複数の方法を検出し、それぞれの方法に対してクエリ ベクトルを生成します。各ベクトルを使用して画像を「クエリ」し、各クエリに対する応答を生成します。次に、ネットワークはこれらの応答を選択的に集約し、より深い理解を提供するクエリが強調表示されます。

背景

挑戦と貢献

1) 基準分割画像内のオブジェクト間の関連性は複雑であり、クエリ式は他のオブジェクトとの関係を記述することで対象オブジェクトを表すことが多く、画像と言語表現の全体的な理解が必要です

ソル:

1. すべての要素間の直接的な相互作用 (例: ピクセルとピクセル、ワードとワード、ピクセルとワード) がモデル化される、グローバルな操作を備えたネットワークを構築することで、マルチモーダルな機能の全体的な理解を強化することを検討します。

一般的に使用される小さなカーネル畳み込みは相互作用の点で非効率的であり、トランスフォーマで解決されます。トランスフォーマーを備えたセグメンテーション ネットワークのほとんどは、FCN のようなパイプラインに基づく補助モジュールとしてアテンション メカニズムのみを利用しているため、グローバル コンテキストをモデル化する機能が制限されています。

図 1 に示すように、視覚に導かれた注意を使用して言語特徴から一連のクエリ ベクトルを生成し、これらのベクトルを使用して特定の画像を「クエリ」し、応答からセグメンテーション マスクを生成します。このアテンションベースのフレームワークにより、計算の各段階でマルチモーダルな特徴間のグローバルな操作を実現できるようになり、ネットワークが視覚情報と言語情報のグローバルなコンテキストをより適切にモデル化できるようになります。

2) オブジェクト/画像の多様性と、高度なランダム性をもたらす無制限の言語表現

ソル:

1.視覚機能を利用して言語に基づいて複数の異なるクエリ ベクトルを生成するクエリ生成モジュール (QGM)を提案します

これまでのほとんどの視覚変換作業では、変換デコーダへのクエリは通常、学習されたベクトルの固定セットであり、各学習されたベクトルはオブジェクトを予測するために使用されます。実験によると、各クエリ ベクトルには独自の動作モードがあり、特定のクラスのオブジェクトに特化されています [1]。固定クエリを使用したこれらの作業では、入力画像内のオブジェクトが参照セグメンテーションのランダム性と一致しない特定の統計規則に従って分布しているという暗黙の仮定が存在する必要があります

2. 生成されたクエリ ベクトルが効果的であることを確認し、画像と言語を理解するためのより適切な方法を見つけるために、マスクをより適切に生成するためにこれらのクエリの出力特徴を適応的に選択するクエリ バランス モジュール Query Balance Moduleをさらに提案します。 。このモジュールは軽量で、パラメータ サイズは 7 つの畳み込み層とほぼ同等です。

関連作業

Referring Segmentation 参考分割

参照セグメンテーションの目標は、そのプロパティを説明する自然言語表現が与えられた画像内でターゲット オブジェクトを見つけることです。

ここでは、本稿で言及した 20 年後のみを掲載します。

画像セグメンテーションを参照する双方向関係推論ネットワーク,2020

共同参照表現の理解と分割のためのマルチタスク協調ネットワーク、2020

FCN のようなネットワーク上に構築された以前の手法とは異なり、予測および認識ヘッドを完全な注意ベースのアーキテクチャに置き換えます。これにより、画像の長期的な依存関係を簡単にモデル化できます。

アテンションとトランスフォーマー

Transformer モデルは、アテンション メカニズムのみを使用するシーケンスツーシーケンスのディープ ネットワーク アーキテクチャです。

そのほうが常識的な気がする

方法

 ネットワークは画像と言語表現を入力として受け取ります。H0 と W0 はそれぞれ入力画像の高さと幅、T は言語表現の長さです。

まず、入力画像と言語表現が特徴空間にマッピングされます。

同時に、視覚的特徴が Transformer エンコーダーに送信され、一連のメモリ特徴が生成されます。QGM から取得したクエリ ベクトルを使用してメモリ機能を「クエリ」し、デコーダの結果応答がクエリ バランス モジュールによって選択されます。
最後に、ネットワークはターゲット オブジェクトの MaskMp を出力します。

モデル

エンコーディング

Transformer アーキテクチャは順次入力のみを受け入れるため、生の画像と言語の入力は、Transformer に送信される前に特徴空間に変換する必要があります。

視覚的特徴

画像エンコードには CNN バックボーンを使用します。バックボーンの最後の 3 つのレイヤーの特徴をエンコーダーへの入力として受け取ります。3 セットの特徴マップのサイズを変更し、それらを合計することで、元の視覚的特徴が得られます。

式中、H、W は特徴の空間サイズ、C は特徴チャネルの数です。

言語機能

まず、ルックアップ テーブル [31] を使用して各単語を単語埋め込みに変換し、次に RNN モジュールを使用して単語埋め込みを視覚特徴と同じチャネル番号に変換し、その結果、一連の言語特徴が得られます。

 次に、Fvr と Ft が視覚的および言語的特徴としてクエリ生成モジュールに送信されます。同時に、Fvr の空間ドメインをシーケンスに平坦化して視覚特徴を形成し、変換モジュールに送信します。

変圧器モジュール。

完全ではあるが浅いトランスフォーマーを使用して、入力特徴にアテンション演算を適用します。
ネットワークには Transformer エンコーダーとデコーダーがあり、それぞれ 2 つのレイヤーがあります。各層には、1 つ (エンコーダー) または 2 つ (デコーダー) のマルチヘッド アテンション モジュールとフィードフォワード ネットワークがあります。

トランスフォーマーエンコーダは、視覚特徴 Fv を入力として受け取り、視覚情報の記憶特徴を導き出します。エンコーダに送信する前に、Fv に固定正弦空間位置埋め込みを追加します。

 私たちの実験では、Fv に言語特徴の最終状態を乗算して、視覚特徴の情報を豊かにします。次に、Fm は、クエリによって生成された Nq クエリ ベクトルとともにキーと値として Transformer Decoder モジュールに送信されます。デコーダは、言語クエリ ベクトルとビジュアル メモリ機能をクエリし、マスク デコード用の Nq 応答を出力します。

マスクデコーダモジュール

マスク デコーダは、デコード用の 3 つの積層された 3*3 畳み込み層と、その後に最終的なセグメンテーション マスクを出力するための 1*1 畳み込み層で構成されます。オプションでアップサンプリング レイヤーをレイヤー間に挿入して、出力サイズを制御できます。トランスフォーマー モジュールの有効性をより明確に示すために、私たちの実装では、マスク デコード モジュールは以前の CNN 機能を使用しません。出力マスクのバイナリ クロスエントロピー損失を利用して、ネットワーク トレーニングをガイドします。

クエリ生成モジュール クエリ生成モジュール

言語表現には、「大きい/小さい」、「左/右」など、多くの属性が隠されています。キー情報を抽出し、参照セグメンテーションにおける高いランダム性の問題を解決するために、図に示すように、入力画像と言語表現に従って画像情報の助けを借りてオンラインでクエリベクトルを自動的に生成するクエリ生成モジュールを提案します。

 さらに、ネットワークが情報のさまざまな側面を学習し、クエリの堅牢性を高めるために、ターゲット インスタンスを 1 つだけ使用して複数のクエリを生成します。クエリ生成モジュールは、言語特徴 fv2rnlc と生の視覚を fv2rhwc への入力として受け取ります。Ft では、i 番目のベクトルは、入力言語表現の i 番目の単語である単語 wi の特徴ベクトルです。
Ft の Nl はゼロパディングによって固定されます。このモジュールの目標は、Nq 個のクエリ ベクトルを出力することです。各クエリ ベクトルは、異なる注意の重みを持つ視覚情報によって導かれる言語特徴です。

まず、図に示すように、視覚特徴を準備します。このモジュールは、通常の 2D 視覚特徴を連続した特徴のセットに変換します。視覚特徴 Fvr の特徴チャネル次元サイズを 3 つの畳み込み層を介してクエリ数 Nq まで削減し、Nq 特徴マップを取得します。

 

それぞれがクエリ ベクトルの生成に参加します。次に、特徴マップは空間領域で平坦化されて、サイズ Nq(HW) の特徴行列 Fvq が形成されます。

 ほとんどの作品は、言語の自己注意を通じて重みを取得します。これは、画像内の情報を利用せず、重みのセットを出力するだけです。しかし実際には、同じ文でも理解の角度や強調が異なる場合があり、図に示すように、最も適切で効果的な強調は画像の助けを借りてのみ知ることができます。

同じ入力文「左側の大きな円」の場合、最初の画像では「左」という単語の方が情報量が多く、2 番目の画像では
「大きい」の方が有益です。この場合、言語的自己注意は「big」と「left」の重要性を区別できないため、これら 2 つの単語に高い注意の重みを与えることしかできず、注意のプロセスの効率が低くなります。

そこで、クエリ生成モジュールでは、画像を組み合わせて言語表現を多面的に理解し、言語からNqクエリを生成します。異なるクエリは異なる単語を強調し、クエリ バランス モジュールを通じてより適切な注意の重みが見つかり、強化されます。

この目的のために、視覚的特徴 Fvq を組み合わせて、言語的特徴 Ft の注意の重みを導き出します。まず、Fvq と Ft を線形投影します。
次に、n 番目のクエリでは、n 番目の視覚特徴ベクトル fvqn2 R1 (HW);N = 1;2;:::;Nq とすべての単語の言語特徴を取得します。i 番目の単語の特徴表現を fti 2
R1C;I = 1;2;:::; とします。 i 番目の単語の n 番目の注意の重みは、fvqn と fti 射影の積です。

 スカラー ani を取得し、および は学習可能なパラメータです。Softmax 関数は、正規化として各クエリのすべての単語に適用されます。

n 番目のクエリでは、ani からすべての単語の注意の重みのセットを形成します。
これは、さまざまな単語の注意の重みのセットで構成され、さまざまなクエリは言語表現のさまざまな部分に焦点を当てることができます。したがって、Nq クエリ ベクトルは、言語表現を理解するためのさまざまな強調やさまざまな方法に焦点を当てています。

 次に、結果として得られた注意の重みを言語特徴に適用します。

 ここで、 は学習可能なパラメータです。各 Fqn は、変換デコーダへのクエリ ベクトルとして視覚情報によって導かれる補助的な言語特徴ベクトルです。数学的には、各クエリは言語表現内のさまざまな単語の特徴の射影された加重合計であるため、プロパティを言語特徴として保存し、画像のクエリに使用できます。

 クエリバランスモジュール 

 クエリ生成モジュールから Nq 個の異なるクエリ ベクトルを取得します。各クエリは、入力言語表現の特定の理解を表します。前述したように、入力画像も言語表現も非常にランダムです。したがって、より良い理解方法を適応的に選択し、ネットワークをより合理的で適切な理解方法に集中させる必要があります。一方、Transformer Decoder では各クエリ ベクトルの独立性が維持されますが、必要なマスク出力は 1 つだけなので、異なる q の影響のバランスをとる必要があります。

クエリ バランス モジュールは、クエリ生成モジュールからのクエリ ベクトル Fq と、Fq と同じサイズを持つ Transformer DecoderFr からのその応答を受け取ります。Fqn に対応する応答を Frn とします。クエリ バランシング モジュールでは、クエリとそれに対応する応答が最初に連結されます。

次に、サイズ nq*1 のクエリ信頼度 Cq のセットが 2 つの連続する線形層によって生成されます。各スカラー
Cqn は、クエリ Fqn が予測されたコンテキストにどの程度適合するかを示し、マスク デコードに対する応答 Frn の影響を制御します。2 番目の線形層は、出力範囲を制御する活性化関数としてシグモイドを使用します。各応答 Frn には、対応するクエリ信頼度 Cqn が乗算され、マスク デコードに送信されます。

実験

基本構成

CNN エンコーダとして Darknet-56 バックボーンを準備するなど、実験セットアップに関しては以前の研究 [19、29] に厳密に従っています。入力画像は 416 X 416 にサイズ変更されます。各 Transformer ブロックには 8 つのヘッドがあり、すべてのヘッドの隠れ層のサイズは 256 に設定されます。

入力言語式の最大長は、RefCOCO および RefCOCO+ の場合は 15 に、G-Ref の場合は 20 に設定されます。

Adam オプティマイザーを使用し、学習率 = 0.001 でネットワークを 50 エポック学習します。浅いトランスフォーマー アーキテクチャを使用すると、32 GB の VRAM を使用して GPU あたり 32 のバッチ サイズでモデルをトレーニングすることができました。

評価基準

IoUPrecision@Xをマスクします。IoU メトリクスは出力マスクの品質を示し、ターゲティング機能やマスク生成機能を含むメソッドの全体的なパフォーマンスを反映します。Precision@X は、メソッドの照準能力に焦点を当てて、IoU しきい値 X の下での照準成功率をレポートします。

データセット

RefCOCO & RefCOCO+

は、最大かつ最も一般的に使用される 2 つの参照セグメンテーション データセットです。RefCOCO データセットには、50,000 個のオブジェクトに対する 142,209 個の参照式を含む 19,994 枚の画像が含まれています。一方、UNC+ データセットには、49,856 個のオブジェクトに対する 141,564 個の式を含む 19,992 枚の画像が含まれています。

G-Ref

これには、54,822 個のオブジェクトを含む 26,711 枚の写真と 104,560 個の表現が含まれています。

実験結果

パフォーマンスが良い理由は、長くて複雑な文には通常より多くの情報と強調が含まれている一方で、クエリ生成およびバランシング モジュールが複数の強調を検出して、より有益な強調を見つけることができるためであると考えられます一方、より困難なケースには、全体的な視野を必要とする複雑なシーンが含まれる場合もあり、この問題には全体的なオペレーターとしてのマルチヘッドの注意の方が適しています

 

アブレーション実験

より困難なデータセットである RefCOCO+ testB でアブレーション研究を実行します。

パラメータのサイズ

 アテンションベースのモジュールのパラメータ サイズは、畳み込み層 7 層とほぼ同等でありながら、優れたパフォーマンスを備えています。Transformer モジュールのパフォーマンスは 7 畳み込みモジュールのパフォーマンスよりも優れており、IoU は 5% 以上増加し、[email protected] は 7% 以上改善されています。これは、この Transformer モジュールの有効性を示しています。

クエリの生成

 学習された固定クエリ ベクトルは、クエリ生成モジュールによってオンラインで生成されたクエリほど効果的にターゲット オブジェクトを表すことができません。

クエリ番号

単一のマスクを出力するだけでも、変圧器ネットワークでは依然として複数のクエリが必要であることがわかります。

クエリ生成モジュールによって生成された複数のクエリは、情報のさまざまな側面を表します。

おすすめ

転載: blog.csdn.net/Scabbards_/article/details/132069768