[Dharma Academy OpenVI] オープンソース CVPR 高速インスタンス セグメンテーション FasInst モデル

チーム モデル、論文、ブログ投稿、ライブ ブロードキャストのコレクション。ここをクリックして参照してください

1. 論文と規範

論文: https://arxiv.org/abs/2303.08594

モデルとコード: https://modelscope.cn/models/damo/cv_resnet50_fast-instance-segmentation_coco/summary

2. 背景

        インスタンス セグメンテーションは、画像内の対象となるすべてのオブジェクトをセグメント化することを目的としています。マスク rcnn [1] に代表される従来の 2 段階のインスタンス セグメンテーション スキームは、最初に検出し、その後にセグメンテーションを行うという考えに従います。シンプルで直観的ではありますが、これらの方法では、多数の繰り返し領域の提案が生成されるため、大量の冗長な計算が導入されます。 。計算効率を向上させるために、SOLO [2] などの完全畳み込みネットワーク上に構築された多くの単一ステージ手法が登場しました。彼らは領域提案操作を放棄し、オブジェクト タイプの予測とマスクの生成を 1 つのステップでエンドツーエンドで実現しました。このような方法は推論が速く、実際の展開にとって魅力的です。ただし、これらの完全な畳み込みベースの 1 段階スキームでは引き続き高密度予測が採用されているため、非最大抑制などの手作業で設計された複雑な後処理ステップが回避されます。

        最近、オブジェクト検出における DETR [3] の成功を受けて、クエリベースの 1 段階のインスタンス セグメンテーション手法が登場しました。このような方法では、一般的で強力なアテンション メカニズムと一連の学習可能なクエリを組み合わせて、ターゲット オブジェクト カテゴリとセグメンテーション マスクを推測します。たとえば、Mask2Former [4] は、セグメンテーション用のバックボーンの上にピクセル デコーダとマスクを備えた Transformer デコーダを追加することで、画像セグメンテーションのワークフローを簡素化します。以前の方法とは異なり、Mask2Former では、トレーニング オブジェクト アロケーターや NMS 後処理などの追加設計された手作りのコンポーネントは必要ありません。Mask2Former は構造的には洗練されていますが、独自の問題があります: (1) クエリは静的であるため、ターゲット クエリをデコードするには多数のデコーダ層が必要であり、反復的な改善には長いプロセスが必要です; (2) 重いクエリに依存しています。のピクセル デコーダ構造。そのオブジェクト セグメンテーション マスクの特徴はピクセル デコーダ出力から直接導出され、これらの出力はさまざまなオブジェクトを区別するための特徴埋め込みとして使用されるためです。(3) マスクされたクロスアテンション層を使用します。各クエリの影響により、トランスフォーマ デコーダが局所的に最適ではないクエリ更新プロセスに陥る可能性があります。

        Mask2Former は優れたパフォーマンスを実現しますが、自動運転やロボット工学などの多くの実世界のアプリケーションにとって重要な、高速かつ効率的なインスタンスのセグメンテーションにおける利点は十分に文書化されていません。実際、クエリベースのモデルの効率は、事前知識の欠如と高価な計算のために、一般に満足のいくものではありません。効率的なリアルタイム インスタンス セグメンテーションのベンチマークは、依然として古典的な畳み込みベースのモデルが主流です [5]。

2.方法

この論文では、FastInst を提案することで、クエリベースのモデルに欠けている速度のギャップを埋めます。FastInst は、クエリベースのリアルタイム インスタンス セグメンテーションのための簡潔で効率的なフレームワークです。クエリベースのモデルが高速性を維持しながらインスタンス セグメンテーション タスクで優れたパフォーマンスを達成できることを実証し、効率的なインスタンス セグメンテーション アルゴリズム設計の大きな可能性を示します。たとえば、ResNet-50 バックボーンを使用した最速のクエリベース モデルは、COCO テスト開発上で 53.8 FPS (1 秒あたりのフレーム数、シングル V100 GPU) で 35.6 AP を達成します (上図を参照)。最適なトレードオフ モデルは、実行可能です。 32.5 FPS のリアルタイム速度で 40 (つまり 40.5) を超える AP を実現します。これは、私たちの知る限り、同じ設定の下で以前の方法では決して達成できませんでした。

具体的には、FastInst は Mask2Former のメタ アーキテクチャに従います。効率的なリアルタイム インスタンス セグメンテーションを実現するために、FastInst には 3 つの主要なモジュールが導入されています。

(1) インスタンスのアクティブ化によってガイドされるクエリ。FastInst は、ピクセル デコーダーからの高度なセマンティクスを備えた動的に選択されたピクセル エンベディングを、Transformer デコーダーの最初のクエリとして使用します。静的な学習可能なクエリと比較して、これらの選択された動的クエリには豊富な潜在オブジェクト埋め込み情報が含まれており、Transformer デコーダの反復更新の負担が軽減されます。具体的には、FastInst はまず、ピクセル デコーダの出力の後に補助分類ヘッダーを接続します。これは、各ピクセルが各カテゴリに属する​​確率を予測します。 ここで、 はピクセル位置、 はカテゴリの添字です。推論中は、まず各ピクセルが属するクラスを決定し、次に、より大きい位置にある特徴を選択します。冗長な特徴の選択を避けるために、ここでは極大値の選択方法を導入します。つまり、最初に対応するチャネル上の最大値である点を選択します。つまり、ここでは、位置を選択し、最大の点を選択します。推論時に、FastInst はハンガリアン マッチングを使用してアクティベーション ターゲットを各インスタンスに割り当てます。各インスタンスに正しいアクティブ化ポイントを持たせ、同様のセマンティクスを持つ他の場所によってアクティブ化されないようにするために、FastInst はターゲットを割り当てるときにロケーション コストを導入します。この位置コストの背後にある直感は、オブジェクトの内部にあるピクセルのみが、そのオブジェクトのクラスとマスクの埋め込みについて推論する理由があるということです。同時に、ロケーションコストによりマッチングスペースも削減され、モデルトレーニングの収束が高速化されます。

(2) デュアルパス Transformer デコーダ構造。FastInst は、Transformer デコーダでデュアルパス更新戦略を採用しています。上の構造図に示されているように、Transformer デコーダー層にはピクセル特徴更新層とクエリ更新層が含まれています。プロセス全体は EM クラスタリング アルゴリズムに似ています。ステップ E: ピクセルの特徴が属する中心に従って更新します (クエリ); ステップ M: クラスターの中心を更新します (クエリ)。従来のシングルパス更新戦略と比較して、デュアルパス更新戦略はピクセル特徴とクエリを同時に最適化し、重いピクセル デコーダーへの依存を減らし、よりきめ細かい特徴埋め込みを取得します。

(3) GT マスクに基づいたトランスフォーマー デコーダーの学習。Mask2Former では、著者らは、Transformer デコーダで予測マスクを備えたクロスアテンション レイヤーを使用すると、モデル セグメンテーションのパフォーマンスが向上することを実証しています。予測マスクを備えたこのクロスアテンション層は、まばらな事前知識を導入し、モデルの収束を高速化し、パフォーマンスを向上させますが、各クエリの受容野を制限し、Transformer デコーダが局所的な次善のクエリ更新プロセスに陥る可能性があります。この問題を軽減するために、FastInst では GT マスクに基づく学習が導入されています。具体的には、FastInst は、最後のデコーダー層の各クエリによって一致した GT マスクを使用して、クロスアテンション層の予測マスクを、前の各デコーダー層で使用されていた前の層の予測マスクに置き換えます。最後のレイヤーでどのインスタンスにも一致しないクエリの場合は、代わりに標準のクロスアテンションが置換されずに使用されます。次に、FastInst は、置き換えられたクロスアテンション層と各トランスフォーマー デコーダー層の出力を入力として使用して、各トランスフォーマー デコーダー層を再び順方向伝播します。新しい出力は、最後のレイヤーと同じ固定マッチングに従って監視されます。この固定マッチングにより、各トランスフォーマー デコーダー層の出力予測の一貫性が保証されます。同時に、このガイド付き学習を通じて、各クエリがトレーニング中にターゲット予測オブジェクトの領域全体を参照できるようになり、モデルがマスクを使用してより合理的なクロスアテンション領域を学習するのに役立ちます。

これらのモジュールを使用すると、FastInst は高速さと優れたパフォーマンスの両方を実現します。COCO ベンチマークでは、FastInst は、同じ実験設定の下で、以前のほとんどのリアルタイム インスタンス セグメンテーション アルゴリズムを上回っています。

3. 実験結果

1.アブレーション実験

(1) インスタンス起動ガイダンスに基づくクエリ

(2) デュアルパストランスフォーマーデコーダ構造

(3) GT マスクによるトランスフォーマー デコーダーの学習

2.SOTAの比較

3.エフェクト表示

4.実験を拡張する

FastInst は、セマンティック セグメンテーションやパノラマ セグメンテーションなどの一般的な画像セグメンテーション タスクにも適しています。

4. 参考文献

[1] カイミン・ヘ、ジョージア・グキオサリ、ピョートル・ダラー、そしてロス・ガーシック。R-CNN をマスクします。ICCVにて、2017年。

[2] Xinlong Wang、Tao Kong、Chunhua Shen、Yuning Jiang、および Lei Li. SOLO: 場所によるオブジェクトのセグメント化. ECCV、2020 年。

[3] ニコラス・カリオン、フランシスコ・マッサ、ガブリエル・シンナエブ、ニコラス・ウスニエ、アレクサンダー・キリロフ、セルゲイ・ザゴルイコ。トランスフォーマーを使用したエンドツーエンドの物体検出。ECCV、2020年。

[4] Bowen Cheng、Ishan Misra、Alexander G. Schwing、Alexander Kirillov、Rohit Girdhar。ユニバーサル画像セグメンテーションのためのマスクされたアテンションのマスク トランスフォーマー。CVPR では、2022 年。

[5] Tianheng Cheng、Xinggang Wang、Shaoyu Chen、Wenqiang Zhang、Qian Zhang、Chang Huang、Zhaoxiang Zhang、Wenyu Liu. リアルタイム インスタンス セグメンテーションのためのスパース インスタンス アクティベーション. CVPR にて、2022 年。

5. その他のオープンソース

        さらに、CV ドメインのオープン ソースおよび無料モデルを紹介します。ぜひ体験してダウンロードしてください (ほとんどの携帯電話で体験できます)。

ModelScope コミュニティhttps://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary

ModelScope コミュニティhttps://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

ModelScope Magic コミュニティhttps://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

ModelScope Magic コミュニティhttps://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

ModelScope Magic コミュニティhttps://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

ModelScope マジック コミュニティhttps://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

ModelScope Magic コミュニティhttps://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

ModelScope Magic コミュニティhttps://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

ModelScope マジック コミュニティhttps://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

ModelScope マジック コミュニティhttps://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

ModelScope コミュニティhttps://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

ModelScope コミュニティhttps://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

ModelScope コミュニティhttps://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

おすすめ

転載: blog.csdn.net/sunbaigui/article/details/131571042