最新の傑作 | HQ-SAM: すべてのモデルの高品質セグメンテーション (チューリッヒ工科大学および HKUST)

著者 | Pai Pai Xing 編集者 | CVHub

「自動運転ハート」公開アカウントに注目するには下のカードをクリックしてください

ADAS ジャンボ乾物、手に入れられます

クリックして入力 →オートパイロットの核心 [セマンティックセグメンテーション] 技術交流グループ

バックグラウンド返信【セグメンテーションまとめ】セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーション、弱教師セグメンテーションなどの超充実した学習教材を入手!

205fb7f982bc18c5af75b1eb018e1c45.png

タイトル: 高品質で何でもセグメント化
PDF:  https://arxiv.org/pdf/2306.01567v1.pdf
コード:  https://github.com/SysCV/SAM-HQ

ガイド

SAM は強力なゼロショット機能と柔軟なヒンティングを備えており、11 億マスクでトレーニングされていますが、多くの場合、特に構造的に複雑なオブジェクトを扱う場合、マスク予測の品質がまだ不足しています。

この目的を達成するために、この論文では、SAM の元の設計、効率、ゼロショット汎化能力を維持しながら、あらゆるオブジェクトを正確にセグメント化する能力を SAM に与える HQ-SAM を提案します。著者の設計では、SAM の事前トレーニング済みモデルの重みを再利用および保存しながら、最小限の追加パラメータと計算のみを導入しています。同時に、学習可能な高品質出力トークンも設計されており、これは SAM のマスク デコーダーに注入され、高品質マスクの予測を担当します。この方法は、それをマスク デコーダ機能に適用するだけでなく、最初にそれらを初期および最終の ViT 機能と融合して詳細を改善します。導入された学習可能なパラメータをトレーニングするために、この論文では 44K のきめ細かいマスクを含むデータセットを構築します。HQ-SAM は、この受信 44k マスク データセットでのみトレーニングされ、8 つの GPU でわずか 4 時間かかります。

最後に、さまざまな下流タスクをカバーする 9 つの異なるセグメンテーション データセットに対する HQ-SAM の有効性を実証します。そのうちの 7 つはゼロショット転送で評価されます。

序章

多様なオブジェクトの正確なセグメンテーションは、画像/ビデオ編集、ロボット認識、AR/VR など、さまざまなシーン理解アプリケーションの基礎となります。「Segment Anything Model」(SAM) モデルは、一般的な画像セグメンテーションのための基本的な視覚モデルとして設計されており、数十億のマスク ラベルを使用してトレーニングされます。SAM モデルは、点、境界ボックス、またはラフ マスクを含むヒントを受け入れることで、さまざまなシーンの一連のオブジェクト、パーツ、および視覚構造をセグメント化できます。SAM モデルによって達成される優れたパフォーマンスにも関わらず、そのセグメンテーション結果は多くの場合、まだ不十分であり、特に画像マスクの精度に対する非常に高い要件が求められる自動アノテーションや画像/ビデオ編集タスクの場合には顕著です。

そこで著者らは、元の SAM モデルのゼロショット機能と柔軟性を維持しながら、非常に高い精度でセグメンテーション マスクを予測できる新しいモデル HQ-SAM を提案します。効率とゼロサンプルのパフォーマンスを維持するために、作成者は SAM モデルに若干の変更を加え、高品質のセグメンテーション機能を向上させるパラメーターを 0.5% 未満のみ追加しました。彼らは、SAM のマスク デコーダに供給され、高品質のセグメンテーション マスクを予測するようにトレーニングされる学習可能な HQ-Output トークンを設計します。さらに、HQ-Output トークンは、正確なマスクの詳細のために最適化された機能セットで動作します。

正確なセグメンテーションを学習するには、正確なマスク アノテーションを含むデータセットが必要です。したがって、著者らは HQSeg-44K という名前の新しいデータセットを構築しました。これには、1000 を超える異なるセマンティック カテゴリをカバーする 44K の非常にきめの細かい画像マスク アノテーションが含まれています。データセットのサイズが小さく、アンサンブル アーキテクチャが最小限であるため、HQ-SAM は 8 つの RTX 3090 GPU でトレーニングするのにわずか 4 時間しかかかりません。

HQ-SAM の有効性を検証するために、著者は数多くの定量的および定性的な実験分析を実施しました。彼らは、さまざまなダウンストリーム タスクをカバーする 9 つの異なるセグメンテーション データセットで HQ-SAM と SAM を比較しました。そのうち 7 つはゼロショット転送プロトコルを採用していました。厳密な評価により、提案された HQ-SAM はゼロショット機能を維持しながら、SAM と比較して高品質のマスクを生成できることが示されています。

方法

ad33ac8ef57e8d06c5306848634ad5c3.png

高品質のマスク予測を実現するために、HQ-SAM は HQ-Output Token (高品質の出力トークン) とグローバルとローカルの特徴の融合を SAM に導入します。SAM のゼロショット機能を維持するために、軽量の HQ 出力トークンは SAM のマスク デコーダーを多重化し、融合された HQ 機能 (高機能) と同じ機能を実行する新しい MLP (多層パーセプトロン) 層を生成します。品質特徴)点ごとの製品。トレーニング中、事前トレーニング済み SAM のモデル パラメーターは固定されており、HQ-SAM で学習可能なパラメーターは少数のみです。

ゼロサンプルの特性を維持しながら、ゼロサンプル セグメンテーション タスクにおける元の SAM モデルのパフォーマンスを向上させるため。HQ-SAM は、SAM モデルに 2 つの重要な変更を加えます。

まず、著者は新しい出力トークン (高品質出力トークン) と SAM モデルに基づくグローバルとローカルの機能融合を紹介します。HQ 出力トークンは高品質のマスク生成をより適切にガイドでき、グローバルとローカルの特徴の融合により、さまざまな段階から特徴を抽出および融合して、マスク特徴のグローバル セマンティック コンテキストとローカル境界の詳細を強化できます。

HQ-Output Token の導入により、SAM モデルのマスク予測能力が向上しました。元の SAM モデルの設計では、マスク デコーダーはマスク予測に出力トークン (DETR のオブジェクト クエリと同様) を使用します。HQ-SAM では、作成者は新しい学習可能な HQ-Output Token を導入し、高品質のマスク予測のための新しいマスク予測レイヤーを追加します。

第 2 に、グローバルとローカルの特徴の融合により、SAM モデルのさまざまな段階から特徴を抽出して融合することでマスクの品質が向上します。具体的には、著者らは、SAM モデルの ViT エンコーダの初期レベルの機能、ViT エンコーダの最終層のグローバル機能、および SAM モデルのマスク デコーダのマスク機能を融合して、新しい高品質の機能を生成しました。 (本社 - 機能)。

5f2ee56b25be508c7a29ef539b5c94de.png

ViT-L ベースの SAM と HQ-SAM のトレーニングと推論の比較。HQ-SAM は、SAM に無視できる追加の計算負荷を課し、モデル パラメーターの増加は 0.5% 未満で、元の速度の 96% を達成します。SAM-L は、128 個の A100 GPU で 180k 反復でトレーニングされています。SAM-L に基づいて、8 つの RTX3090 GPU で HQ-SAM をトレーニングするのにかかる時間はわずか 4 時間です。

HQ-SAM のトレーニングと推論のプロセスは、データと計算が効率的です。トレーニング段階では、著者は事前トレーニングされた SAM モデルのパラメーターを修正し、HQ-SAM に新しく導入された学習可能なパラメーターのみをトレーニングします。推論段階では、著者らは SAM の推論プロセスに従いましたが、高品質のマスク予測として HQ-Output トークンのマスク予測を使用しました。

一般的に、元の SAM モデルと比較して、HQ-SAM はセグメンテーションの品質が向上し、トレーニング プロセスがより効率的になり、8 つの RTX3090 GPU でトレーニングを完了するのにわずか 4 時間しかかかりません。HQ-SAM は非常に軽量でもあり、追加されるモデル パラメーター、GPU メモリの使用量、画像ごとの推論時間は無視できます。

実験

a9778ea752f46b545480381b1473c579.png

SAM は HQ-SAM によって予測されたマスクと比較され、入力キューは同じ赤いボックスまたはオブジェクト上のいくつかの点です。HQ-SAM は、非常に正確な境界を持つ、より詳細な結果を生成します。一番右の列では、SAM が凧糸の細い構造を誤解し、入力ボックスのプロンプトに壊れた穴が表示される多数のエラーを生成しました。

63836baf5856be8a5891a23473bd6d6f.png

HQ-Output Token アブレーション実験は、4 つの非常にきめの細かいセグメンテーション データセットに対して行われます。この論文では、GT (Ground Truth、真の値) マスクから変換されたボックスをボックス プロンプト入力として使用します。デフォルトでは、HQ 出力トークンの予測マスクは、完全な GT マスク損失を計算することによってトレーニングされます。

59c0658a518a276a748b3ddae4fee4fd.png

HQ-Feature のソースに関するアブレーション実験。初期層 (early-layer) は ViT エンコーダーの最初のグローバル アテンション ブロック後の特徴を表し、最終層 (final-layer) は最後の ViT ブロックの出力を表します。4 つの HQ データセットは、DIS (検証セット)、ThinObject-5K (テスト セット)、COIFT、および HR-SOD です。

012ef8ce066c19770e04d3448540570a.png

モデルの微調整または追加の後処理の比較。COCO データセットの場合、著者らは、COCO データセットでトレーニングされた最先端のオブジェクト検出器である FocalNet-DINO をバウンディング ボックス ヒント ジェネレーターとして使用します。

a4f23c409a77686a7b3196f9684878f3.png

上の図は、緩やかな BIoU しきい値から厳密な BIoU しきい値を使用した、ゼロショット プロトコルの下での COIFT と HRSOD のリコール比較を示しています。結果は、しきい値が 0.5 から 0.9 まで変化すると、SAM と HQ-SAM 間のパフォーマンスのギャップが大幅に増加することを示しています。これは、HQ-SAM が非常に正確なセグメンテーション マスクを予測する点で利点があること、つまり、特に厳格なしきい値要件の下で、HQ-SAM がオブジェクトのセグメンテーションをより正確に実行できることを示しています。

bd411da76b8041dd1d9061b31795972c.png

UVO データセット上のゼロショット オープンワールド インスタンス セグメンテーションの結果の比較。境界ヒントを生成するために、著者らは COCO データセットでトレーニングされた FocalNet-DINO モデルを使用します。ここで、記号は、境界領域を定義するためにより厳密なしきい値が使用されることを示します。

c54b0034db91d7877c128dcc8d7de766.png

高品質の BIG ベンチマーク テスト セットでのゼロショット セグメンテーションの結果の比較。入力ヒントを生成するために、作成者は PSPNet を使用して粗いマスク ヒントを生成しました。ゼロショット セグメンテーションの結果は、さまざまな種類の入力キューを比較することによって評価されます。

594536bd688b9cbc460755377c296f04.png

COCO データセットと LVISv1 データセットでのゼロショット インスタンス セグメンテーションの結果の比較。COCO データセットの場合、著者らは検出のために COCO でトレーニングされた FocalNet-DINO モデルを使用します。一方、LVIS データセットの場合、境界ヒント ジェネレーターとして LVIS データセットでトレーニングされた ViTDet-H を使用します。SAM モデルでは、著者らはバックボーン ネットワークとして ViT-L を使用し、境界ヒントを使用しました。著者らは、元の SAM のゼロショット セグメンテーション機能を維持しながら、境界領域のマスク品質を向上させました。

58f82532421e840857baaa04c8fae4ef.png

上の図は、同じ赤いボックスまたはドット ヒントを与えた場合の、ゼロショット転送設定における SAM と HQ-SAM の視覚的な結果の比較を示しています。結果からわかるように、HQ-SAM はディテールを大幅に保持した結果を生成し、マスク内の誤った穴も修正します。対照的に、HQ-SAM はオブジェクトの詳細を保持し、ゼロショット転送タスクでマスクのエラーを処理することができます。

d5f16f2b4d1b77a0a24a8e030b59ec2d.png

上の図は、COIFT (ゼロ サンプル) 検証セットと DIS 検証セットで異なる数の入力ポイントを使用した対話型セグメンテーションの結果の比較を示しています。結果は、HQ-SAM がさまざまな点で一貫して SAM を上回っており、キューのあいまいさが小さい場合に相対的な改善がより顕著であることを示しています。これは、インタラクティブ セグメンテーション タスクにおけるさまざまな入力ポイント数に対して HQ-SAM のパフォーマンスが向上していることを示しています。特に、入力ポイントが少なくヒントが不明瞭な場合、HQ-SAM の改善効果がより顕著になります。

62b286f4f991ee589ea3742fd9747241.png

上の表は、HQ-YTVIS ベンチマークでのゼロショット ビデオ インスタンス セグメンテーションの比較結果を示しています。この比較では、著者らは、境界ボックス キューの入力として YTVIS データセットで事前トレーニングされた Swin-L ベースの Mask2Fromer モデルを使用し、そのオブジェクト関連付け予測を再利用しました。この設計を使用して、著者はゼロショット ビデオ インスタンスのセグメンテーション方法を評価および比較しました。

結論は

この論文では、元の SAM に無視できるオーバーヘッドを導入することで高品質のゼロショット セグメンテーションを実現する最初のモデルである HQ-SAM を提案し、データ効率と計算コストを節約した方法で SAM のようなベース セグメンテーションを活用および拡張する方法を検討します。モデル。著者らは、高品質のマスク予測のために元の SAM の出力マーカーを置き換えるために、HQ-SAM に軽量で高品質の出力マーカーを導入しました。わずか 44K の高精度マスクでトレーニングした後、HQ-SAM は、11 億マスクでトレーニングされた SAM のマスク予測品質を大幅に向上させます。著者らは、さまざまなオブジェクトやシーンをカバーする、画像やビデオのタスクを含む 7 つのセグメンテーション ベンチマークでゼロショット転送評価を実施しています。

(1)動画講座はこちら!

自動運転の心臓部は、ミリ波レーダービジョンフュージョン、高精度地図、BEV知覚、マルチセンサーキャリブレーション、センサー展開、自動運転協調知覚、セマンティックセグメンテーション、自動運転シミュレーション、L4知覚、意思決定計画、軌道予測を統合します。 、など、各方向の学習ビデオ。ご自身で受講することを歓迎します (コードをスキャンして学習を入力してください)。

734d31d89904a4ed670e4de0678cc3de.png

(コードをスキャンして最新のビデオをご覧ください)

動画公式サイト:www.zdjszx.com

(2) 中国初の自動運転学習コミュニティ

1,000 人近くのコミュニケーション コミュニティと 20 以上の自動運転技術スタックの学習ルートが、自動運転の認識 (分類、検出、セグメンテーション、キー ポイント、車線境界線、3D 物体検出、占有、マルチセンサー フュージョン、物体追跡、オプティカル フロー推定、軌道予測)、自動運転位置決めとマッピング(SLAM、高精度マップ)、自動運転計画と制御、フィールド技術ソリューション、AI モデル展開の実装、業界トレンド、求人リリース、スキャンへようこそ以下の QR コード、自動運転の中心となるナレッジ プラネットに参加してください。ここは本物の乾物がある場所です。この分野の大手の人々と、仕事の開始、勉強、仕事、転職に関するさまざまな問題を交換し、論文 + コードを共有します。毎日+ビデオ、交換を楽しみにしています!

6c128ec398435a68db5b4adf8437f034.jpeg

(3) 自動運転の心臓部】フルスタック技術交流会

The Heart of Autonomous Driving は、物体検出、セマンティック セグメンテーション、パノラマ セグメンテーション、インスタンス セグメンテーション、キー ポイント検出、車線境界線、物体追跡、3D 物体検出、BEV 認識、マルチセンサー フュージョン、 SLAM、光流推定、深さ推定、軌道予測、高精度地図、NeRF、計画制御、モデル展開、自動運転シミュレーションテスト、プロダクトマネージャー、ハードウェア構成、AI求人検索とコミュニケーションなど。

2e1c4f4323c580398411c23801f2398e.jpeg

Autobot Assistant Wechat への招待を追加してグループに参加します

備考:学校/会社+方向+ニックネーム

おすすめ

転載: blog.csdn.net/CV_Autobot/article/details/131336177