SAM とプロンプトの組み合わせ

ここに画像の説明を挿入

1. SAM の概要

Meta AI Research が開発したセグメント エニシング モデル (略して SAM) は、最近広く注目を集めています。SAM は、10 億を超えるマスクからなる大規模なセグメンテーション データセットでトレーニングされており、特定の画像上のあらゆるオブジェクトをセグメント化できます。元の SAM の研究では、著者はエッジ検出などのゼロショット転送タスクを使用して SAM のパフォーマンスを評価しました。最近、さまざまなシナリオでオブジェクトを認識およびセグメント化する際の SAM のパフォーマンスを調査する多くの研究が試みられています。さらに、SAM を他のモデル (Grounding DINO、Stable Diffusion、ChatGPT など) と組み合わせて、基本モデルとしての SAM の汎用性を実証するプロジェクトも数多くあります。関連する論文やプロジェクトの数が急激に増加するにつれて、読者が SAM の発展についていくのが困難になる場合があります。この目的を達成するために、私たちは SAM に関する最初の最も包括的な調査を実施しました。これは進行中のプロジェクトであり、定期的に原稿を更新する予定です。したがって、読者が SAM に関連する新しい作品を完成させた場合は、次の版にその作品を掲載できるよう、私たちに連絡していただければ幸いです。

ここに画像の説明を挿入
ChatGPT は AI に対する私たちの認識を覆し、世界中で大きな注目と関心を呼び起こしました。これは、基礎となるモデルが重要な役割を果たす生成 AI (AIGC、別名人工知能生成コンテンツ) における大きな進歩を示します。このような大規模な言語モデルは、言語タスクにおいて顕著なパフォーマンスを達成し、さまざまな NLP 分野で新しいパラダイムをリードしています。

視覚の分野では、いくつかの研究 (Radford et al. [2021]、Jia et al. [2021]、Yuan et al. [2021]) が比較によって学習することを試みている (He et al. [2020]、Qiao et al. [2021]) al. [2022a]) テキスト エンコーダとともに画像エンコーダを学習します。したがって、結果として得られる画像エンコーダーは、ビジョンベースのモデルとして見ることができます。ビジョンベースのモデルをトレーニングする別の形式は、マスクされたオートエンコーダーなどの自己教師あり学習によるものです。ただし、このようなビジョンベースのモデルは通常、下流のタスクで使用する前に微調整する必要があります。

最近、メタ研究チームは「Segment Anything」と呼ばれるプロジェクトをリリースし、Segment Anything Model (SAM) と呼ばれるモデルを提案しました。「Segment Anything」プロジェクトの全体図を図 1 に示します。SAM はヒント可能なセグメンテーションを実行しますが、これはセマンティック セグメンテーションとは次の 2 つの点で異なります: (1) SAM はラベルなしでマスクを生成します、(2) SAM はヒントに依存します。言い換えれば、SAM はラベルを割り当てずに画像内のオブジェクトを切り出すだけであり (図 1 を参照)、どのオブジェクトが切り取られるかは、与えられたヒントによって決まります。いわゆるヒント エンジニアリングを考慮すると、SAM は微調整なしで驚くべきゼロショット転送パフォーマンスを示し、GPT-3 Brown et al. [2020] が自然言語処理に対して行ったのと同じことを SAM がコンピュータ ビジョンに対して行うことができると多くの人が信じています。 。SAM は、これまでにリリースされた最大のセグメンテーション データセットである、1,100 万枚の画像からの 10 億を超えるマスクを含むデータセットである SA-1B でトレーニングされています。

ラベル予測とマスク予測。概念的には、セマンティック セグメンテーションはマスク予測とラベル予測の組み合わせとして考えることができます。「Segment Anything」プロジェクトの成功は、SAM が特に最初のタスクに対処することで、これら 2 つのサブタスクを分離できることを示しました。インスタンス セグメンテーションやパノプティック セグメンテーションなどの既存の画像セグメンテーション タスクのようなラベル予測がなければ、SAM によって解決されるタスクは一見すると簡単なタスクのように見えるかもしれません。しかし実際には、これはコンピュータ ビジョンの基本的なタスクを解決し、ビジョン ベースのモデルの開発に貢献します。目に見えない分布への一般化を最大限に高めるには、十分に大きく多様なデータセットを使用してビジョンベースのモデルをトレーニングする必要があります。データセットのサイズと多様性が増大するにつれて、オブジェクトのカテゴリとラベルにはオープンな語彙があり、ラベルの固定リストを事前に決定することが不可能になります。

ビジョンベースのモデルとヒント可能なセグメンテーションが融合。上記の問題を克服するために、SAM Kirillov et al. [2023] は、ヒントが注意と同様の役割を果たすヒントベースのマスク予測タスク (ヒント可能なセグメンテーションとも呼ばれる) を選択しました。人間の目は世界を認識するとき、通常、特定のオブジェクトに焦点を合わせ、その周囲の領域を背景として見ます。同じシーンに多くのオブジェクトがある場合、人間の目は注意メカニズムがなければそれを理解できません。さらに、観察者が過去に同様の物体を見たことがない場合でも、人間の目は関心のある物体を識別してセグメント化することができます。たとえば、サモエドを初めて見た赤ちゃんは、犬が何であるかを理解していなくても、犬の動きを追跡します。言い換えれば、視覚的な理解は主に、対応するラベルではなくオブジェクト マスクに依存します。全体として、キュー可能なセグメンテーション タスクは、人間の目が世界を理解する方法をよく模倣しています。キュー可能なセグメンテーションでトレーニングされた SAM は、目に見えない分布に一般化するだけでなく、より要求の厳しいタスク用の他のモデルと互換性のあるビジョンベースのモデルを構成します。1 か月も経たないうちに、コミュニティはさまざまな観点から SAM を検討する多くのプロジェクトや記事に着手しました。これらは大まかに 2 つのカテゴリに分類できます: (1) 最初のカテゴリは、現実世界の物体検出タスクにおける SAM を評価および改善します; (2) 2 番目のカテゴリは、SAM を他のモデルと組み合わせることで SAM の多用途性を活用します。作業負荷が増加していることを考えると、読者が SAM の開発についていくのは難しいかもしれません。この目的のために、本稿では、ビジョンが基本モデルを採用した NLP パスの時代に入ったときの SAM の状況について調査を行います。

ここに画像の説明を挿入

2. SAM は本当にあらゆる場合に何かを分割できるのでしょうか?

タイトルが示すように、SAM は画像内のあらゆるものをセグメント化できると主張しています。ただし、SAM モデルが現実の世界でうまく機能するかどうかは不明です。したがって、最近では、医療画像などを含むさまざまなシナリオでのパフォーマンスを評価するために多くの研究が行われています。

ここに画像の説明を挿入

3. セグメント何でもから X 何でもまで

「何でもセグメント化」における SAM (自己教師連想記憶) の成功は、コミュニティに「X 何でも」に取り組むきっかけを与えました。具体的には、SAM は多くのプロジェクトでその多用途性を実証しており、他のモデルと組み合わせることで優れたパフォーマンスを実現できます。
ここに画像の説明を挿入

4. SAM オールラウンド モードを評価するための指標

SAM の重要な機能は、「すべてを分割」モードで動作できることです。このモードは、SAM の品質を視覚化する簡単な方法を提供します。ただし、このモードでの SAM のパフォーマンスを評価するための指標はありません。SAM 全能モデルを評価する際の大きな課題は、予測されたマスクにラベルがないことです。言い換えれば、モデルはラベルを割り当てずにオブジェクトを切り出すだけなので、全能モデルをカットアウト セグメンテーションと呼びます。提案するカット セグメンテーション メトリックを紹介する前に、図 10 に示すように、まず画像セグメンテーション タスクの既存のメトリックを要約します。

ここに画像の説明を挿入

5。結論

プロンプト可能なセグメンテーション タスクに基づいた「Segment Anything」モデル (SAM) は、人間の目による世界の理解を模倣する最初のビジョンベースのモデルであり、その出現はコンピューター ビジョン コミュニティに革命をもたらしました。私たちの研究は、SAM に関する初めての包括的な調査を示しています。私たちの調査が、SAM に興味があり、関連する研究をしたいと考えている読者の助けになれば幸いです。

参考

https://mp.weixin.qq.com/s/Qqhox8Ua2M4Bc8Z4twUdTg

おすすめ

転載: blog.csdn.net/weixin_42990464/article/details/131366239