RES シリーズ GRES: 一般化参照表現セグメンテーション 論文閲覧ノート


前に書く

  今週ももうすぐ終わりですが、あまり何もしてません。学校に来てから Ubuntu システムを再インストールしたところ、前のシステムがクラッシュしてしまいました。次に、コマンドラインを使用してバックアップします。
  これは RES の新しいデータセットに関する記事です。論文を発表する機会がないか見てみましょう。

  • 論文アドレス: GRES: Generalized Referring Expression Segmentation
  • コードアドレス: https://github.com/henghuiding/ReLA
  • 含まれるもの: CVPR 2023
  • Ps: 2023 年の毎週のブログ記事の読書メモです。ホームページにはさらに役立つ情報が掲載されています。フォロー歓迎です。5,000 人のファンの皆様の参加を楽しみにしています~
  • 2023 年 9 月 5 日、更新 1️⃣: このグループは Arxiv で GREC 技術レポートをリリースしました。内容は類似していると推定されています。興味のある方は入手してください: GREC: Generalized Referring Expression Comprehension

1. 概要

  まず第一に、Referring Expression Segmentation (RES) の定義を指摘します。現在の古典的な RES データセットとメソッドは、一般的に単一ターゲット式のみをサポートします。つまり、1 つの式が 1 つのターゲットに対応し、マルチターゲットは考慮されていません。そしてターゲットのないもの。したがって、この記事では、式が任意の数のターゲット カテゴリを指すことができるようにする一般化参照式セグメンテーション (GRES) を提案します。同時に、複数のターゲット、ターゲットなし、および単一ターゲットの表現を含む、最初の大規模 GRES データ セット gRefCOCO が構築されました。実験によると、GRES の主な問題は複雑な関係モデリングにあります。これに基づいて、領域ベースの ReLA モデルが提案されます。これは、画像をインスタンスを含むいくつかの領域に適応的に分割し、領域間および領域と言語の依存関係を明示的にモデル化できます。提案された ReLA は、GRES および従来の RES データセット上で良好に機能します。

2. はじめに

  
  参照式セグメンテーション (RES) の定義、アプリケーション、およびデータ セット。

  • Classic RES の制限
    まず、classic RES はターゲットのない式を考慮しません。つまり、既存の RES メソッドでは、ターゲットが入力画像上にない画像とテキストのペアを定義できません。第 2 に、RefCOCO などの既存の RES データセットのほとんどには、複数のターゲットの式が含まれていません。以下に示すように:

ここに画像の説明を挿入します
  実験によれば、従来の RES 手法では、これらの複数のターゲットまたはターゲットのないシーンを適切に識別できないことが示されています。

  • 新しいベンチマークとデータセット
    この記事では、式が任意の数のターゲットを指すことを可能にする新しいベンチマーク、Generalized Referring Expression Segmentation (GRES) を提案します。GRES は、イメージと参照式も入力として受け取りますが、さらに、単一の式に含まれる複数のターゲットと、イメージに含まれるターゲットをサポートしません。対照的に、既存の参照式データセットにはこれらは含まれず、単一ターゲットの式のみが含まれます。GRES 用に確立された新しいデータ セットは gRefCOCO と呼ばれ、多目的式と非目的式の 2 種類のサンプルで RefCOCO を補完します。
  • 新しいベースライン メソッド
    領域間の相互作用は RES において非常に重要ですが、従来の RES メソッドでは 1 つのターゲットを検出するだけでよいため、領域間の相互作用モデリングを使用しないほとんどのメソッドで良好なパフォーマンスを達成できます。ただし、GRES では、長距離の領域間依存モデリングへの依存度が高くなります。そこで、画像をいくつかの領域に分割し、相互に明示的に対話するネットワークが設計されました。さらに、本論文で提案するネットワークは、各地域の特徴を柔軟に収集することができ、より高い柔軟性を実現することができる。広範な実験により、地域特徴の弾性相互作用を明示的にモデル化することが GRES のパフォーマンスに貢献できることが示されています。

  この記事の貢献は次のように要約されます。

  • ベンチマークとして提案されているのは、一般化参照式セグメンテーション (GRES) です。これにより、RES はより柔軟になり、実際のシナリオでの展開が容易になります。
  • 最初のものは、任意の数のターゲットの表現をサポートできる大規模な GRES データセット gRefCOCO を提案しました。
  • ベースライン手法: ReLA はターゲット間の複雑な関係をモデル化するために提案されており、古典的な RES タスクと GRES タスクに SOTA を実装します。
  • 多数の実験により、RES と GRES の間のパフォーマンスのギャップについて考えられる理由と新たな課題が分析されました。

3. 関連作品

関連する参照タスクとデータセット

  Expression Comprehension (REC) 出力境界ボックスを参照すると、RES および REC の初期のデータ セットには ReferIt がありますが、各式は単一のインスタンスのみを指します。次に、RefCOCO および RefCOCOg データセットが提案されました。繰り返しますが、これらは 1 つのインスタンスに対応する 1 つの式です。
  最近、いくつかの新しいデータセットが提案されていますが、それらは GRES に焦点を当てていないか、GRES には適していません。たとえば、PhraseCut には複数のターゲット式が含まれていますが、これは候補としてのみ、つまりターゲットを独立した参照対象として使用できない場合にのみ含まれます。また、その表現は自然言語表現ではなくテンプレート合成となっています。画像キャプション 画像キャプションも RES に近いですが、式の難読化が保証されないため、関連タスクの参照には適していません。3D オブジェクトに焦点を当てた Scanrefer や教師なし学習に焦点を当てた Clvrtex など、他のモダリティや学習プランを使用したデータ セットを参照するものもあります。さらに、これらのデータセットにはターゲットのない式は含まれていません。

参照先分割法

  大きく分けて1段式(トップダウン)と2段式(ボトムアップ)の2種類があります。シングルステージ方式では通常、FCN と同様のエンドツーエンドのネットワークがあり、マルチモーダルな特徴をピクセルごとに分類することで予測を実現します。2 段階の方法では、最初にインスタンス提案のセットを見つけて、次にその中からターゲット インスタンスを選択します。ほとんどの RES は 1 段階の方法ですが、REC は 2 段階の方法です。最近の Transformer メソッドは、CNN ベースのメソッドを大幅に上回っています。ゼロショット セグメンテーション手法では、カテゴリ名をテキスト情報として使用し、新しいカテゴリの識別に重点を置き、自然言語表現を使用してユーザーの焦点を識別します。

4. タスク設定とデータセット

4.1 GRES 設定

RESレビュー

  現在の RES はターゲットのない式を考慮していないため、既存のモデルは、入力画像上に複数の参照対象を扱う場合、またはターゲットの参照対象がない場合に、間違ったインスタンス結果を出力する可能性があります。以下に示すように:

ここに画像の説明を挿入します

一般化されたRES

  従来の RES の制限を解決するために、この記事では新しいベンチマークである Generalized Referring Expression Segmentation (GRES) を提案します。これにより、式が任意の数のターゲット オブジェクトを指すことができるようになります。GRES データ サンプルには 4 つの要素が含まれています。 画像III、言語表現TTTTTT は、すべてのピクセルを含むMGT M_{GT}MGT、バイナリ ターゲット ラベルEGT E_{GT}EGTTTであることを示しますTが対象外の式かどうか。TTT内のインスタンスの数に制限はありません。GRES モデルはIITTTは入力、マスクMMM._ _ ターゲットのない式の場合、MMM は負の値である必要があります。
  複数のターゲット表現はユーザー定義のオープンボキャブラリーのセグメンテーションを実現でき、ターゲットフリー表現は画像に言語表現にターゲットが含まれているかどうかを識別できるため、より実用的です。

評価する

  gRefCOCO では、モデルは異なるインスタンスの説明を提供することを強制されません。一般的な RES パフォーマンス指標である累積 IoU (cIoU) と Precision@X に加えて、新しい指標がさらに提案されています。それは、平均 IoU をすべてのサンプル (対象外のサンプルを含む) に拡張する一般化 IoU (gIoU) です。さらに、ターゲットのないサンプルの性能は、ターゲットなしの精度 (N-acc.) とターゲットの精度 (T-acc.) を計算することによって個別に評価されます。

4.2 gRefCOCO: 大規模な GRES データセット

  gRefCOCO には 278,232 個の式が含まれています: 80,022 個のマルチターゲット、32,202 個のノーターゲット、19,994 個の画像内の 60,287 個の顕著なインスタンスを指します。すべてのターゲット インスタンスの境界ボックスとマスクが指定されます。一部の単一目的式は RefCOCO から派生しています。画像の検索、インスタンスの選択、式の作成、結果の検証を行うオンライン注釈ツールが開発されました。
  基本的な注釈プロセスは ReferIt から派生し、注釈の品質を保証します。データセットの比率を RefCOCO の UNC 部分と同じに保ちます。

ここに画像の説明を挿入します

複数のターゲットサンプル

  通常、ユーザーは複数のターゲットをランダムに組み合わせるのではなく、論理的な関係や類似性に基づいて複数のターゲットを選択することに重点を置きます。次に、アノテーターは、これらのインスタンスを選択するための難読化されていない参照式を、次の 4 つのプロパティと課題とともに作成します。

カウント式の使用

  図 3(a) の元の式には序数語が含まれているため、モデルは重要な量を序数語の量から区別する必要があります。このような式を解くために、明示的または暗黙的なターゲット カウント機能を使用できます。

設定関係のない複合語構造

  図 3 に示すように、「A と B」、「B を除く A」、「A と B または C」では、画像と文章の長距離依存性を理解するために、モデルに対してより高い要件が課されます。

属性ドメイン

  式に複数のターゲットが存在する場合、異なるターゲットが同じプロパティまたは異なるプロパティを共有する場合があります。これには、モデルがすべての属性を理解し、これらの属性を対応するターゲットにマッピングできる必要があります。

より複雑な関係

  図 3(b) に示すように、2 つの同様の式が 1 つの画像に適用されますが、2 つの異なるターゲット セットを指します。したがって、GRES では、関係は目標を説明するために使用されるだけでなく、目標の数を暗示するためにも使用されます。これには、モデルがインスタンス間のすべての対話を理解する必要があります。

対象サンプルがありません

  対象外の式で条件ペアが設定されていない場合、アノテーターは、有効な式とは大きく異なる単純な式または一般的な式を多数作成する傾向があります。したがって、2 つのルールが設定されています: 式が画像全体と無関係であってはなりません; アノテーターは、同じデータ分布を持つ他の RefCOCO 画像から誤解を招く表現を選択できます。

5. 提案手法

ここに画像の説明を挿入します

5.1 構造プレビュー

  モデル構造は上図に示されており、入力画像は Swin-Transformer エンコーダによって抽出され、視覚特徴F i ∈ RH × W × C F_i\in \mathbb{R}^{H\times W\times が抽出されます。 C}F私はRH × W × C、ここでHHHWWWは画像の空間サイズ、CCCはチャネルの寸法です。入力言語式は BERT によって処理され、言語特徴F t ∈ RN t × C F_t\in \mathbb{R}^{N_t\times C} がFRN× C、ここでN t N_tN式内の単語の数です。次に、F i F_iF私はそれをピクセルデコーダに送信してマスク特徴を取得しますF m F_mFメートル同時にF i F_iF私はそしてF t F_tFこれは提案された ReLAtionship 構築モジュールに送信され、特徴マップがP × P = P 2 P\times P=P^2にさらに分解されます。P×P=P2 つの領域を分割し、それらの間の関係をモデル化します。ただし、特徴マップの形状とサイズ、およびその空間領域はあらかじめ決められているのではなく、ReLA によって動的に分割されます。ReLA は 2 種類の特徴を生成します: 地域特徴F r = { frn } n = 1 P 2 F_r=\{f_r^n\}^{P^2}_{n=1}Fr={ fr}n = 1P2および領域フィルタF f = { ffn } n = 1 P 2 F_f=\{f_f^n\}^{P^2}_{n=1}F={ ff}n = 1P2nn回目n地域、その地域特性f_r^nfrスケールxrn x_r^nを見つけるために使用されますバツrターゲットが含まれる確率とそのエリア フィルターffn f_f^nを示します。ffマスク機能ありF m F_mFメートルドット乗算を実行して領域分割マスクM rn ∈ R h × W M_r^n\in \mathbb{R}^{h\times W} を取得します。MrRh × W、この領域の面積を示します。次に、予測されたマスクに重みを付けてこれらのマスクを集計します。
M = ∑ n ( xrn M rn ) M=\sum_n(x_r^nM_r^n)M=n( ×rMr)

出力と損失

  予測マスクMMM~ GT マスクMGT M_{GT}MGT監督。P × PP\times PP×P確率マップxr x_rバツrMGT の M_{GT}よりMGT監視のために最小のグラフにダウンサンプリングします。同時に、あらゆる地域の特徴を通じてF r F_rFr対象外のラベルEEを予測するためのグローバル平均特徴E._ _ 推論中、EEE は正の値を予測し、出力マスクMMM は空に設定されます。んんMxr x_rバツrEEE は、クロスエントロピー損失を通じてトレーニングをガイドします。

5.2 関係モデリング

  提案された ReLAtionship モデリングには、領域-画像クロス アテンション (RIA)、領域-言語クロス アテンション (RLA) の 2 つのモジュールが含まれています。RIA は地域の画像特徴を柔軟に収集し、RLA は地域間および地域と画像の依存関係をキャプチャします。

ここに画像の説明を挿入します

領域画像クロスアテンション (RIA)

  RIA は視覚的な機能F i F_iを使用しますF私はP 2 P^2P2 つの学習可能な領域ベースのクエリQ r Q_rQr入力として、図 4 の最小グラフによって監視されます。各クエリは画像内の空間領域に対応し、この領域の特徴を分離する役割を果たします。その構造を図5(a)に示します。まず、画像特徴量F i F_iを実行することでF私はP 2 P^2PQ r ∈ RP 2 × C Q_r\in\mathbb{R}^{P^2\times C} を埋め込む2つのクエリQrRP2 ×Cを生成するために注意P 2 P^2P2 つのアテンション マップ:
A ri = ソフトマックス ⁡ ( Q r σ ( F i W ik ) T ) A_{\boldsymbol{r}i}=\operatorname{softmax}(Q_r\sigma(F_iW_{\boldsymbol{i}k } )^T)_=ソフトマックス( Qrs ( F私はW私はわかります)T )ここで、W rk W_{rk}Wrk _C × CC\time CC×Cの学習可能なパラメータ、σ \sigmaσはGeLUです。出力結果A ri ∈ RP 2 × HW A_{\boldsymbol{r}i}\in\mathbb{R}^{P^2\times HW}_RP2 ×HWH × WH\times W を各クエリにH×Wのアテンション マップは、画像内の対応する領域を示します。次に、これらのアテンション マップを使用して、対応する領域から領域特徴を取得します。
F r ' = A ri σ ( F i W iv ) T \begin{aligned}F_r'&=&A_{ri}\sigma({F_iW_{iv} } )^T\end{整列}Fr=_s ( F私はW私はv)T其中 W i v W_{iv} W私はvC × CC\time CC×Cの学習可能なパラメータ。このアプローチでは、各領域の特徴が相対的な位置を通じて動的に収集されます。マスクベースの予測F r ' F_r^{\prime}Fr領域フィルターを取得F f F_fF、地域的な手がかりが含まれています。F r ' F_r^{\プライム}Frさらに、地域間および地域と単語の相互作用モデリングのために RLA に供給されます。

地域言語クロスアテンション (RLA)

  地域画像特徴F r ' F_r^{\prime}FrRLA モジュールは、地域情報と言語情報の関係を含まない画像特徴に基づいて、地域間および地域と言語の相互作用をモデル化するために提案されています。図 5(b) に示すように、RLA はセルフ アテンション メカニズムとマルチモーダル クロス アテンションで構成されます。セルフ アテンション モジュールは、領域間の依存関係をモデル化します。単一領域の注目行列を他のすべての領域とともに計算することにより、関係認識領域特徴F r 1 F_{r1}を出力します。Fr1 _同時に、クロスアテンションは言語機能を採用しますF t F_tF値とキーの入力、地域画像特徴F t F_tFクエリ入力として。したがって、各単語と各領域の関係は次のようにモデル化されます。
A l = ソフトマックス ⁡ ( σ ( F r ′ W lq ) σ ( F t W lk ) T ) A_l=\operatorname{softmax}(\sigma(F_r^{ \素数}W_{lq})\sigma(F_tW_{lk})^T)=ソフトマックス( σ ( FrWlq) p ( FWlk _)T )其中A l ∈ RP 2 × N t A_l\in\mathbb{R}^{P^2\times N_t}RP2 ×N次に、単語領域の注意は、言語知覚の領域的特徴に形付けられます。F r 2 = A l F t F_{r2}=A_lF_tFr2 _=F最後に、MLP を使用してインタラクティブ センシング領域の特徴F r 1 F_{r1}を集約します。Fr1 _言語知覚の地域的特徴F r 2 F_{r2}Fr2 _と地域の画像特徴F r ' F_r^{\prime}FrF r = MLP ( F r ’ + F r 1 + F r 2 ) F_r=\text{MLP}(F_r^{\prime}+F_{r1}+F_{r2})Fr=MLP ( Fr+Fr1 _+Fr2 _

6. 実験

6.1 評価指標

  広く使用されている RES インジケーターに加えて、累積 IoU (cIoU) および Precision@X (Pr@X)、ノーターゲット精度 (N-acc.)、ターゲット精度 (T-acc.)、および一般化 IoU (gIoU) GRES についてはさらに紹介されます。

cIoU と Pr@X。

cIoU は、ピクセルのセット全体に対する交差ピクセル全体の比率を計算します。Pr@X は、IoU が特定のしきい値XX  より大きい場合にカウントします。Xにおけるサンプル サイズのパーセンテージ。ターゲットのないサンプルは Pr@X では計算されません。マルチターゲット サンプルの前景領域が大きいため、より高い cIoU スコアを取得しやすくなります。したがって、しきい値XXX は0.7 から Pr@X に使用されます。

N-ac. そしてT-acc。

  これら 2 つの指標は、ターゲットなしサンプルでのモデルのパフォーマンスを評価します。ターゲットなしサンプルの場合、予測内に前景ピクセルがない場合はポジティブ サンプル (TP)、それ以外の場合はネガティブ サンプル (FN) になります。次に、N-acc. を使用して、対象外のサンプルでのモデルのパフォーマンスを測定します: N-acc. = TPTP + FN \text{N-acc.} =\frac{ {T}P}{TP+FN}N-ac.=TP + FNTP _

  T-acc. は、非ターゲット サンプルがターゲット サンプルに影響を与える程度、つまり、非ターゲット サンプルとして誤分類されたターゲット サンプルの数を反映します: T-acc. = TNTN + FP \text{T-acc.} = \ frac { {T}N}{TN+FP}T-ac.=TN + FPTN _

ジオウ。

  cIoU 内の大きなオブジェクトほどスコアが高いため、GRES 内のターゲットの方がより大きな見通しを持つことが起こります。したがって、すべてのサンプルを平等に扱うために、一般化 IoU (gIoU) が導入されます。gIoU は、各画像のすべてのサンプルの平均を計算します。これらの非ターゲット サンプルでは、​​陽性の非ターゲット サンプルの IoU 値は 1 とみなされますが、ターゲットのある偽陰性サンプルの IoU 値は 0 とみなされます。

6.2 アブレーション研究

データセットの必要性

ここに画像の説明を挿入します

RIA 設計オプション

ここに画像の説明を挿入します

RLA 設計オプション

ここに画像の説明を挿入します

地域PPPの数

ここに画像の説明を挿入します

6.3 GRES の結果

RESソータ法との比較

ここに画像の説明を挿入します

定量的な結果

ここに画像の説明を挿入します

失敗事例とディスカッション

ここに画像の説明を挿入します
  主な理由は、表現が欺瞞的すぎるためであり、モデルはすべてのオブジェクトの詳細をさらに詳細に検出し、画像コンテキストの詳細を理解する必要があります。

6.4 古典的な RES の結果

ここに画像の説明を挿入します

7. 結論

  この論文では、古典的な RES タスクの限界、つまりマルチモーダルでゴールのない式を解決できないことを分析し、解決します。これに基づいて、新しいベンチマークである Generalized Referring Expression Segmentation (GRES) が提案されます。これにより、任意の数のターゲットを式に含めることができます。これに対応して、大規模なデータセット gRefCOCO が構築され、ベースライン手法である ReLA が提案されました。これは、さまざまな画像領域と単語の間の関係を明示的にモデル化し、古典的な RES タスクと GRES タスクに新しい SOTA を実装します。提案された GRES は、画像検索などの新しいアプリケーション シナリオを切り開きます。

裏に書く

  データセットや手法、指標を提案するなど、大きな穴を掘ったともいえる内容となっており、興味のある学生は注目してほしい。

おすすめ

転載: blog.csdn.net/qq_38929105/article/details/132256322