ICCV 2023 | 北京大学と南洋理工大学が共同で、オープンボキャブラリーインスタンスセグメンテーション CGG の新しい方法を提案しました: 優れたパフォーマンスと時間とスペース効率の利点!

論文タイトル: Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation
出版社: Peking University、Nanyang Technological University
論文アドレス: https://arxiv.org/abs/2301.00805
コードアドレス: 記事末尾をクリックしてください原文を直接読む

ガイド

コンピューター ビジョンの分野では、オープン ボキャブラリー インスタンスのセグメンテーション ( Open Vocabulary Instance Segmentation) は非常に困難なタスクであり、モデルがトレーニング データに現れていない新しいカテゴリを含む、画像内のさまざまなオブジェクトを認識してセグメント化できる必要があります。

この問題に対処するために、この論文はCaption Grounding and GenerationCGG () という名前のフレームワークを提案します。これは、オープン語彙学習のために画像セグメンテーションと画像生成を統合する最初のフレームワークですCaptionCGG は、追加の大規模データセット事前トレーニングなしで COCO の OVIS で 6.8% のパフォーマンス向上を達成し、Open Vocabulary Panoptic Segmentation (OSPS) で 15% のパフォーマンス向上を達成しました。

図に示すように、CGG フレームワークと以前の研究の違いを以前の研究と比較します (たとえば、a では VLM のコントラスト損失を直接使用してテキストと画像の特徴を位置合わせし、b では接地損失を使用しています)領域のテキストと画像の特徴を調整するため)、CGG はまた、キャプションのグラウンド ロスとキャプション生成ロスを使用して、キャプションに含まれる小説カテゴリ情報を完全にマイニングします。

方法

モデル設計のアイデア

CGG フレームワークの中心となるアイデアは、キャプション データ (Caption) をモデルのトレーニングに最大限に活用することです。タイトル データには、モデルがクエリ オブジェクト (オブジェクト クエリ、各インスタンスのエンコード情報) をより適切に特定するのに役立つ、きめの細かい名詞が含まれているだけでなく、モデルに新しいカテゴリを予測させるための監視信号としても使用できます。 (小説クラス)。このアプローチにより、モデルのパフォーマンスが向上するだけでなく、データの利用効率も向上します。

上の図は CGG のモデル構造を示しています。Mask2Formerこの論文で使用されているアーキテクチャは、オープン シナリオに拡張するためのベースラインとして使用されています。提案されたground lossと は、それぞれ の出力と の出力にcaption generation loss基づいて動作しますdecoderobject querycation generation

ここに文を追加させてください。Mask2Former は 1 年以上前に開発されましたが、用心深い友人なら、今年の多くの新しい仕事がさらなる応用のためにそれに基づいていることに気づくかもしれません。そのアテンション メカニズムの設計アイデアは学ぶ価値があります。わかりません。DETR -> MaskFormer -> Mask2Former -> OneFormer -> ... このパスから開始できます。

キャプション 接地損失

これまでのオープンボキャブラリーのターゲット検出および画像セグメンテーションの手法では、多くの場合、グラウンディングロスを使用して画像内のオブジェクトとタイトルの特徴を位置合わせし、視覚情報とカテゴリワードのテキスト特徴の位置合わせを実現していました。ただし、OVR-CNN などの以前の研究では、タイトル内のすべての単語が抽出され、OpenSeg では形容詞だけでなく名詞も抽出されます。しかし、画像のタイトルでは、これらの単語の一部が、「and」、「a」、「the」、「young」、「room」など、画像内でセグメント化できるオブジェクトに直接対応していないことは明らかです。 、など。視覚的なオブジェクトを表さないこれらの単語をグラウンディング損失に追加すると、モデルが無意味な表現を学習することになり、画像とテキストの特徴のクロスモーダル学習で誤った位置合わせが発生します。

この欠陥を改善するために、本論文では、オブジェクトを表す名詞のみについてキャプション損失関数を計算することを提案する(オブジェクト名詞に基づくキャプション)。この損失関数と以前のグラウンディング損失の違いは、ビジョン バックボーン ネットワーク (ビジョン バックボーン) によって抽出されたビジョン特徴が、タイトル内のオブジェクト名詞とのみ位置合わせされることです。これにより、モデルが効果的な位置合わせを確実に学習できるため、大幅にモデルのパフォーマンスが向上しました。

この 1 つの変更だけで、COCO での OVIS のテストにおいて、CGG の新規クラスの AP は、以前の最良の方法である XPM と比較して 6.8% 増加しました。

キャプション生成の損失

周波数関係

上記改善後の接地損失により、モデルの性能は大幅に向上しましたが、上記損失には目的名詞以外の単語が単に切り捨てられてしまうという欠点があります。

したがって、この論文は新たな疑問を提起します:これらの他の単語は小説のカテゴリーを予測するのに役立ちますか?

著者は、COCO データセット内のタイトルに含まれる新規クラスとその他の高頻度単語の共起頻度を計算する実験を行ったところ、さまざまな新規クラスが特定の単語とともに頻繁に出現することがわかりました。たとえば、馬には通常乗り物が伴います。 。(図 3 を参照)。直感的に言えば、オブジェクト名詞以外のこれらの単語も学習に追加すると、モデルはタイトルに乗り物を見たときに、写真内のオブジェクトが馬であると判断しやすくなり、小説の精度も向上します。カテゴリー認識。

したがって、オブジェクト名詞以外の単語を使用するために、本論文では、キャプション生成タスク (キャプション生成タスク) を使用することを提案します。つまり、モデルに画像の特徴に従って画像のキャプションを予測させ、それを比較します。グランド トゥルース キャプションを使用してキャプション生成損失関数を計算し、モデルが画像の全体的な意味を学習して理解できるようにし、オブジェクト名詞に加えてオブジェクト間のアクション、状態、関係などの単語の情報を学習できるようにします。オブジェクト自体だけではありません。

字幕生成損失計算式(クロスエントロピー損失)

タイトル生成ロス関数を追加した後、CGG による COCO 上の OVIS のテストでは、タイトル アライメント ロスのみを使用した場合と比較して、新規クラスの AP が 6.2% 増加しました。

CGG の出力には、インスタンスのセグメンテーションの結果だけでなく、画像コンテンツをより解釈しやすい方法で説明するために生成された画像キャプションも含まれています。

どちらの改善も、オープン語彙インスタンスのセグメンテーション タスクにおけるモデルのパフォーマンスを向上させることを目的としています。これら 2 つの改善により、モデルはマルチモーダルな特徴をより適切に調整できるようになり、画像内に現れるインスタンスとそれらの関係をより適切に予測できるようになり、オープン語彙インスタンス セグメンテーション タスクでより良い結果が得られます。

実験

オープンボキャブラリーインスタンスのセグメンテーション

この記事では、COCO で Open Vocabulary Instance Segmentation (OVIS) をテストしました。結果は次のとおりです。

OVIS での結果

新しいクラスの AP では、CGG は以前の最高のメソッド XPM を 6.8% 上回りました。

オープンボキャブラリーオブジェクトの検出

CGG は Mask2Former をモデルとしているため、ターゲット検出タスクも実行できます。この記事では、COCO で Open Vocabulary Object Detection (OVOD) もテストしました (OVIS タスクでトレーニングされたモデルを使用)。結果は次のとおりです。

OVOD の結果

OVOD タスクに特別な設計がない場合でも、CGG は依然として新規クラスの AP で以前の方法を 2.7% 上回っていることがわかります。

開集合パノプティックセグメンテーション

同様に、CGG にはパノラマ セグメンテーション タスクを完了する機能もあります。この記事では、COCO で Open Vocabulary Panoptic Segmentation (OVOD) もテストしました。結果は次のとおりです。

OSPSの結果

アブレーション実験

この論文では,COCOのOVIS上で接地損失と生成損失のアブレーション実験を実施した.字幕生成損失は字幕接地損失に対して良好な補助効果を持っていることがわかり,小説のモデルのAPとなったカテゴリーは6.2%増加しました。生成損失のみが使用される場合、モデルのパフォーマンスは良好ではありません。これは、グラウンディング損失が依然としてオープンボキャブラリーインスタンスセグメンテーションをトレーニングするための基本モジュールであることを示しています。

接地損失と発電損失のアブレーション実験

要約する

この論文は, シンプルで効果的なオープンボキャブラリインスタンスセグメンテーション法を提案する. CGG モデルは, パフォーマンス上の利点に加えて, 時間と空間の効率の面でも利点がある.

CGG は、トレーニングやトレーニングに大規模なマルチモーダル コーパスを使用しません。

CGG は、トレーニング データ内の画像キャプション情報を最大限に活用する方法に焦点を当てており、他の研究のように、CC3M などの大規模な画像とテキストのペア データでトレーニングすることはありません。それでも、CGG はこのデータを使用したモデルよりも優れたパフォーマンスを発揮しました。

CGG はビジュアル言語モデル (VLM) を使用しません。

近年、CLIP などの視覚言語モデルが Open Vocabulary 分野で広く使用されており、VLM は大規模なマルチモーダル予測の事前トレーニングにより、マルチモーダル特徴を調整する強力な機能を備えています。Open Vocabulary の分野の多くの作品は、画像とテキストの特徴の位置合わせに CLIP などのモデルに依存しており、大規模なコーパスのトレーニングに CLIP を使用しています。小説カテゴリーの認識精度です。ただし、この論文では、プレーン テキスト データセットでトレーニングされた BERT 埋め込みのみを使用します。これにより、推論の時間と空間のオーバーヘッドが削減されるだけでなく、データ漏洩の問題も回避されます。


要約すると、CGG (Caption Grounding and Generation) は、新しいオープンボキャブラリーインスタンスセグメンテーションフレームワークであり、オープンボキャブラリー学習のためのセグメンテーションとキャプション生成を統合することにより、オープンボキャブラリーインスタンスセグメンテーションタスクにおけるモデルのパフォーマンスを大幅に向上させます。

最後に書きます

コンピュータ ビジョンの最先端技術に興味のある友人は、画面下部の QR コードをスキャンするか、WeChat アカウント cv_huber を直接検索して編集者の友人を追加してください。 備考: 学校/会社-研究方向-ニックネーム、コミュニケーションより多くの友達と一緒に学びましょう!

おすすめ

転載: blog.csdn.net/CVHub/article/details/132521820
おすすめ