何でもモデルをセグメント化する

 紙の翻訳:

 

図 1: 3 つの相互に関連するコンポーネントを導入することで、セグメンテーションの基本モデルを構築することを目指しています。オンザフライ セグメンテーション タスク、データ アノテーションをサポートし、オンザフライ セグメンテーション タスクを介してゼロ サンプルを一連のタスクに転送するセグメンテーション モデル (SAM) です。 -フライ エンジニアリング、および 10 億を超えるマスクを含むデータセットである SA-1B を収集するデータ エンジンのセグメンテーション モデル (SAM)。

概要

画像セグメンテーションのための新しいタスク、モデル、データセットである Segment Anything (SA) プロジェクトを紹介します。データ収集ループで効率的なモデルを使用して、ライセンスを取得したプライバシーを尊重した 1,100 万枚の画像に対して 10 億を超えるタスクを含む、これまで (現時点で) 最大のセグメンテーション データセットを構築しました。このモデルは、プロンプト表示できるように設計およびトレーニングされているため、ゼロ サンプルを新しい画像分布およびタスクに転送できます。多くのタスクでその機能を評価したところ、ゼロショットのパフォーマンスが印象的で、多くの場合、以前の完全に監視された結果と競合、またはそれを上回るパフォーマンスを示していることがわかりました。https://segment-anything.com では、コンピューター ビジョンの基本モデルの研究を促進します。

1. はじめに

大規模な Web データセットで事前トレーニングされた言語モデルは、強力なゼロ/フューショット汎化機能により、自然言語処理に革命をもたらしています [10]。これらの「ベース モデル」[8] は、トレーニング タスクでカバーされるものをはるかに超えたタスクとデータ分布を一般化できます。この機能は多くの場合、プロンプト エンジニアリングによって実現されます。プロンプト エンジニアリングでは、手書きのテキストを使用して、当面のタスクに基づいて有効なテキスト応答を生成するよう言語モデルに指示します。これらのモデルを拡張し、Web のリッチ テキスト コーパスを使用してトレーニングすると、ゼロショットおよび少数ショットのパフォーマンスは、微調整されたモデルと驚くほどよく比較されます (場合によっては、一致することさえあります) [10、21]。経験的な傾向によれば、この動作はモデル サイズ、データセット サイズ、トレーニング計算の総量が増加するにつれて改善されることが示されています [56、10、21、51]。

比較的少数ではありますが、コンピュータ ビジョンでも基礎的なモデルが研究されています。おそらく最も顕著な実装例は、Web からのテキストと画像のペアリングです。たとえば、CLIP [82] と ALIGN [55] は、対照学習を使用してテキストと画像のエンコーダをトレーニングし、2 つのモダリティを調整します。トレーニングが完了すると、エンジニアリングされたテキスト キューを使用して、新しいビジュアル コンセプトとデータ分布でゼロショット汎化を達成できます。このようなエンコーダは、画像生成などの下流タスク用の他のモジュールと効率的に組み合わせることができます (例: DALL-E [83])。ビジョンおよび言語エンコーダの大きな進歩にもかかわらず、コンピュータ ビジョンにはこの範囲をはるかに超えるさまざまな問題が含まれており、その多くには豊富なトレーニング データが不足しています。

この作業の目標は、画像セグメンテーションの基本モデルを構築することです。つまり、ヒントを使用してトレーニングし、広範囲のデータセットで事前トレーニングして、強力な一般化を達成できるモデルを開発したいと考えています。このモデルでは、ヒントを使用して一連の新しいデータ分布の下流のセグメンテーション問題を解決することを目指しています。

このプログラムの成功は、タスク、モデル、データという 3 つのコンポーネントにかかっています。これらを開発するには、画像のセグメンテーションに関する次の質問に答える必要があります。

  1. どのタスクがゼロショット汎化を達成しますか?
  2. 対応するモデル アーキテクチャは何ですか?
  3. このタスクとモデルをサポートできるデータは何ですか?

これらの問題は複雑であり、包括的な解決策が必要です。まず、一般的なヒント可能なセグメンテーション タスクを定義して、強力な事前トレーニング目標を提供し、幅広い下流アプリケーションを有効にします。このタスクでは、モデルが柔軟なヒントをサポートし、対話型の使用を求められたときにリアルタイムでセグメンテーション マスクを出力できる必要があります。モデルをトレーニングするには、多様で大規模なデータ ソースが必要です。残念ながら、現在セグメンテーションに適した大規模な Web データ ソースはありません。これに対処するために、データ収集を支援する効率的なモデルを使用し、新しく収集されたデータを活用することでモデルを改善する反復プロセスである「データ エンジン」を構築しました。 。次に、相互に関連する各コンポーネントを紹介し、続いて作成したデータセットと、アプローチの有効性を実証する実験を紹介します。

タスク (パート II)。自然言語処理、そして最近ではコンピューター ビジョンにおいて、基礎モデルは有望な開発であり、多くの場合、新しいデータセットやタスクに対してゼロショット学習と少数ショット学習を実行できる「ヒント技術」を使用します。この一連の作業では、ヒント可能なセグメンテーション タスクを提案します。その目的は、セグメンテーション ヒントが与えられた場合に効率的なセグメンテーション マスクを返すことです (図 1a を参照)。ヒントは、セグメント化する必要がある画像の部分を指定するだけであり、たとえば、オブジェクトを指定する空間情報またはテキスト情報が含まれる場合があります。効果的な出力マスクの要件は、キューがあいまいで複数のオブジェクトを参照している場合でも (たとえば、シャツ上のドットがシャツ自体またはそれを着ている人を参照している可能性がある)、出力が少なくとも 1 つを合理的にセグメント化する必要があることです。オブジェクトマスクの。ヒント可能なセグメンテーション タスクを事前トレーニング目標として使用し、一般的な下流のセグメンテーション タスクをヒント エンジニアリングを通じて解決します。

モデル (パート III)。ヒント可能なセグメンテーション タスクと実際の使用目標により、モデル アーキテクチャに制約が課されます。特に、モデルは柔軟なキューをサポートする必要があり、リアルタイム インタラクションをサポートするためにセグメンテーション マスクを計算する必要があり、また曖昧性を認識する必要もあります。驚くべきことに、単純な設計が 3 つの制約をすべて満たしていることがわかりました。画像の埋め込みを計算するための強力な画像エンコーダー、ヒントを埋め込むためのヒント エンコーダー、そしてセグメンテーション マスクを予測するために軽量マスク内の 2 つの情報ソースがデコーダーに組み込まれています。このモデルを「Any Segment Model」と呼びます (Segment Anything Model、SAM、図 1b を参照)。SAM を画像エンコーダと高速ヒント エンコーダ/マスク デコーダに分割することにより、同じ画像埋め込みを異なるヒントで再利用できます (コストは償却されます)。画像が埋め込まれている場合、ヒント エンコーダーとマスク デコーダーは、Web ブラウザーで最大 50 ミリ秒でヒントからマスクを予測できます。ポイント、ボックス、マスク キューに焦点を当て、自由形式のテキスト キューを使用して予備的な結果も提示します。SAM のあいまいさを認識できるようにするために、単一のキューに対して複数のマスクを予測するように SAM を設計し、SAM がシャツと人の例などのあいまいさを自然に処理できるようにします。

データ エンジン (パート IV)。新しいデータ分布に対する強力な一般化を達成するには、既存のセグメンテーション データセットを超えた、大規模で多様なマスクのセットで SAM をトレーニングする必要があることがわかりました。基本モデルの一般的なアプローチはオンラインでデータを取得することですが (83)、マスクはもともと豊富にあるわけではないため、別の戦略が必要です。私たちの解決策は、ループをモデル化するデータセットのアノテーションを使用して共同開発した「データ エンジン」を構築することでした (図 1c を参照)。当社のデータ エンジンには、支援型、手動、半自動、完全自動の 3 つの段階があります。最初の段階では、SAM は、従来の対話型セグメンテーション設定と同様に、アノテーターによるマスク アノテーションを支援します。第 2 段階では、SAM がオブジェクトの可能性のある位置を示唆することでオブジェクトの一部のマスクを自動的に生成できる一方、アノテーターは残りのオブジェクトに注釈を付けることに集中し、マスクの多様性を高めることができます。最終段階では、通常のグリッド前景ポイント ヒント SAM を使用します。これにより、画像ごとに平均約 100 個の高品質マスクを生成できます。

データセット (パート V)。最終的なデータセット SA-1B には、10 億を超えるマスクを持つ 1,100 万を超えるライセンス済みのプライバシー保護画像が含まれています (図 2 を参照)。データ エンジンを使用した最終段階では、既存のセグメンテーション データセット [66、44、117、60] の 400 倍のマスクを含む SA-1B が完全に自動的に収集され、これらのマスクの品質と多様性が両方とも高いことが広範囲に検証されました。SA-1B は、堅牢性と一般化を目的とした SAM のトレーニングに使用されるだけでなく、新しい基礎モデルの構築を目的とした研究の貴重なリソースとなることを期待しています。

責任ある AI (パート VI)。私たちは、SA-1B および SAM の使用に関連する可能性のある公平性に関する懸念と偏見について調査し、報告します。SA-1B の画像は、さまざまな地理的および経済的条件下のさまざまな国をカバーしており、SAM はさまざまな集団にわたって同様に機能することがわかりました。これにより、実際のアプリケーションの状況で私たちの作業がより公平になることを願っています。付録でモデルとデータセットのカードを提供します。

実験 (パート VII)。私たちは SAM の広範な評価を実行しました。まず、23 のセグメンテーション データセットからなる多様な新しいスイートを使用して、SAM が単一の前景点から高品質のマスクを生成できることがわかりました。多くの場合、手動で注釈を付けたグランド トゥルース マスクよりもわずかに劣る程度です。2 番目に、ゼロショット転送プロトコルの下でヒント エンジニアリングを使用することで、エッジ検出、オブジェクト抽出、インスタンス セグメンテーション、テキストからマスクへの予測の予備調査など、さまざまな下流タスクで一貫して強力な定量的および定性的な結果が得られます。その他。これらの結果は、SAM をヒント エンジニアリングの助けを借りて使用して、SAM のトレーニング データの範囲を超えたオブジェクトと画像の分布に関するさまざまなタスクに対処できることを示しています。ただし、まだ改善の余地があり、それについてはセクション VIII で説明します。

リリース。私たちは SA-1B データセットを研究目的でリリースし、https://segment-anything.com で寛容なオープン ライセンス (Apache 2.0) に基づいて SAM を利用できるようにしています。また、オンライン デモで SAM の機能を実証しました。

図 2: 新しく導入されたデータセット SA-1B のサンプル画像と重ね合わせたマスク。SA-1B には、1,100 万枚の多様な高解像度の、ライセンスを取得したプライバシー保護画像と 11 億個の高品質セグメンテーション マスクが含まれています。これらのマスクには SAM によって完全に自動的に注釈が付けられ、人間による評価と広範な実験を通じてマスクが高品質で多様性があることが検証されています。視覚化するために、各画像内のマスクの数によってグループ化します (平均すると、画像ごとに約 100 個のマスクがあります)。 

 2. 何でもタスクをセグメント化する

次のトークン予測タスクを参照して、自然言語処理からインスピレーションを得ています。このタスクは、基本モデルを事前トレーニングし、ヒント エンジニアリングを通じてさまざまな下流タスクを解決するために使用されます [10]。セグメンテーションの基本モデルを構築するために、同様のタスクを定義することを目指します。タスク。私たちは、自然言語処理におけるキューの概念から始めて、それをセグメンテーションに適用します。ここで、キューは、前景/背景点のセット、大まかなボックスまたはマスク、フリー テキスト、または一般に画像情報内の任意の指示である可能性があります。セグメンテーション用。したがって、ヒント可能なセグメンテーション タスクは、ヒントが与えられた場合に効率的なセグメンテーション マスクを返すことです。「有効な」マスクの要件は、キューがあいまいで複数のオブジェクトを指している場合でも、出力が少なくとも 1 つのオブジェクトの妥当なマスクである必要があることを単に意味します (たとえば、シャツと人の例を思い出してください。図 3 を参照してください)。 )。この要件は、言語モデルが不定のキューに対して一貫した応答を出力することを期待するのと似ています。このタスクを選択した理由は、自然な事前トレーニング アルゴリズムと、ヒントを介して下流のセグメンテーション タスクにゼロショット転送するための一般的な方法が得られるからです。

事前トレーニング:ヒント可能なセグメンテーション タスクは、各トレーニング サンプルの連続キュー (ポイント、ボックス、マスクなど) をシミュレートし、モデルのマスク予測をグランド トゥルース比較と比較する自然な事前トレーニング アルゴリズムを提供します。私たちはこのアプローチをインタラクティブ セグメンテーション [109, 70] から採用しましたが、十分なユーザー入力後に最終的に有効なマスクを予測することを目標とするインタラクティブ セグメンテーションとは異なり、私たちの目標はあらゆるヒントに対して常に有効なマスクを予測することです。は明確ではありません。これにより、事前トレーニングされたモデルが、データ エンジン §4 で必要な自動アノテーションなど、曖昧さを伴うユースケースに対して効果的であることが保証されます。このタスクを適切に実行することは困難であり、§3 で説明する特殊なモデリングとトレーニング損失の選択が必要であることに注意してください。

関連タスク:セグメンテーションは、インタラクティブ セグメンテーション [57、109]、エッジ検出 [3]、スーパーピクセル化 [85]、オブジェクト提案生成 [2]、前景セグメンテーション [94]、セマンティック セグメンテーション [90] ]、インスタンス セグメンテーションを含む幅広い分野です。 [66]、パノプティックセグメンテーション[59]など。ヒント可能なセグメンテーション タスクの目標は、ヒント エンジニアリングを通じて達成される、複数の (すべてではないが) 既存および新規のセグメンテーション タスクに適応する幅広い機能を備えたモデルを生成することです。この能力はタスクの一般化の一種です [26]。これは、マルチタスク分割システムに関する以前の作業とは異なることに注意してください。マルチタスク システムでは、単一のモデルが結合セマンティック、インスタンス、パノプティック セグメンテーションなどの固定セットのタスクを実行します [114、19、54] が、トレーニング タスクとテスト タスクは同じです。私たちの研究における重要な違いは、ヒンタブル セグメンテーション用にトレーニングされたモデルが、より大きなシステム内のコンポーネントとして機能することにより、推論時に新しい異なるタスクを実行できることです。たとえば、インスタンス セグメンテーションを実行する場合、ヒンタブル セグメンテーション モデルは、次の組み合わせと比較されます。既存の物体検出器。

考察:ヒントと組み合わせは、単一のモデルをスケーラブルな方法で使用できるようにする強力なツールであり、設計時には未知のタスクを達成できる可能性があります。このアプローチは、他の基本モデル、たとえば、DALL・E [83] 画像生成システムのテキストと画像の位置合わせコンポーネントである CLIP [82] の使用方法に似ています。私たちは、プロンプトエンジニアリングなどの技術によって推進されるコンポーザブルシステム設計により、固定された一連のタスク用に特別に訓練されたシステムよりも幅広いアプリケーションが可能になると予想しています。構成的な観点からプロンプト可能なセグメンテーションとインタラクティブなセグメンテーションを比較することも興味深いです。インタラクティブなセグメンテーション モデルは人間のユーザー向けに設計されていますが、プロンプト可能なセグメンテーション用にトレーニングされたモデルは、中央に示すように、より大きなアルゴリズム システムに組み合わせることができます。

図 4: SAM (Segment Anything Model) の概要。ヘビー画像エンコーダは、さまざまな入力キューによって効率的にクエリできる画像埋め込みを出力し、償却リアルタイム速度でオブジェクト マスクを生成します。複数のオブジェクトに対応するあいまいなキューの場合、SAM は複数の有効なマスクと関連する信頼スコアを出力できます。

3. 何でもモデルをセグメント化する

次に、セグメンテーションを促すことができる Segment Anything Model (SAM) について説明します。SAM は、図 4 に示すように、イメージ エンコーダ、フレキシブル ヒント エンコーダ、および高速マスク デコーダの 3 つのコンポーネントで構成されます。私たちは、モデルのパフォーマンスとリアルタイム パフォーマンスの間の特定のトレードオフを考慮して、Transformer ビジョン モデル [14、33、20、62] に基づいて構築しています。ここではこれらのコンポーネントの概要を説明し、詳細については §A を参照してください。

画像エンコーダ:スケーラビリティと強力な事前トレーニング方法に触発され、MAE [47] で事前トレーニングされ、高解像度入力を処理するために最小限に変更された Vision Transformer (ViT) [33] を使用します [62]。画像エンコーダーは画像ごとに 1 回だけ実行する必要があり、モデルにプロンプ​​トを表示する前に適用できます。

ヒント エンコーダ:スパース (ポイント、ボックス、テキスト) と密 (マスク) の 2 つのヒント セットを考慮します。位置エンコーディング [95] と各キュー タイプの学習された埋め込み、ポイントとボックスを表すフリー テキスト、およびフリー テキストを表すために CLIP [82] の既製のテキスト エンコーダを使用します。密なキュー (マスクなど) は畳み込み埋め込みを使用し、画像埋め込みを要素ごとに追加します。

マスク デコーダー:マスク デコーダーは、画像の埋め込み、キューの埋め込み、および出力トークンを単一のマスクに効率的にマッピングします。[14、20] からインスピレーションを得たこの設計は、Transformer デコーダ ブロック [103] の修正を採用し、その後に動的マスク予測ヘッドを使用します。修正されたデコーダー ブロックは、ヒントによるセルフ アテンションとクロス アテンションを両方向 (ヒントから画像への埋め込み、またはその逆) を使用してすべての埋め込みを更新します。両方のブロックを実行した後、画像埋め込みをアップサンプリングし、MLP を使用して出力トークンを動的線形分類器にマッピングし、画像位置ごとにマスクされた前景確率を計算します。

曖昧さ回避:モデルの出力が 1 つだけの場合、曖昧さのヒントが与えられた場合、モデルは複数の有効なマスクを平均します。これに対処するために、単一のキューに対して複数の出力マスクを予測するようにモデルを変更します (図 3 を参照)。3 つのマスク出力を予測するだけで、ほとんどの一般的なケースをカバーするには十分であることがわかりました (ネストされたマスクには通常、全体、部分、部分の 3 つのレベルがあります)。トレーニング中は、各マスクの最小損失 [15、45、64] のみを逆伝播します。マスクをランク付けするために、モデルは各マスクの信頼スコア (つまり、推定 IoU) を予測します。効率の観点から見ると、私たちの全体的なモデル設計は主に効率を重視しています。事前に計算された画像埋め込みが与えられると、ヒント エンコーダーとマスク デコーダーは CPU を使用して Web ブラウザ上で実行され、約 50 ミリ秒で完了します。この実行時のパフォーマンスにより、モデルはシームレスでリアルタイムの対話型プロンプトを実現できます。

損失とトレーニング: [14] で使用された Focal Loss [65] と Dice Loss [73] の線形結合を使用してマスク予測を監視します。手がかり可能なセグメンテーション タスクでは、幾何学的な手がかりの組み合わせを使用してトレーニングします (テキスト キューについては、セクション 7.5 を参照)。インタラクティブな設定をシミュレートし、マスクごとに 11 ラウンドのキューをランダムにサンプリングします。これにより、[92、37] でも行われているように、SAM がデータ エンジンとシームレスに統合できるようになります。

4. 何でもセグメント化データ エンジン

セグメンテーション マスクはインターネット上に豊富にないため、1.1B マスク データセット SA-1B を収集するためにデータ エンジンを構築しました。このデータ エンジンは 3 つのステージで構成されます: (1) モデル支援による手動アノテーション ステージ、(2) 自動予測マスクとモデル支援アノテーションを組み合わせて使用​​する半自動ステージ、(3) 完全自動アノテーション私たちのモデルが存在するステージでは、アノテーターの入力なしでマスクが生成されます。次に、各段階について詳しく説明します。

支援付き手動フェーズ: 最初のフェーズでは、従来のインタラクティブ セグメンテーションと同様に、プロのアノテーター チームが SAM を搭載したブラウザベースのインタラクティブ セグメンテーション ツールを使用して、前景/背景のオブジェクト ポイントをクリックしてマスクにラベルを付けます。マスクは、ピクセル精度のブラシ ツールと消しゴム ツールを使用して微調整できます。モデル支援アノテーションは、(事前計算された画像埋め込みを使用して) リアルタイムでブラウザーで直接実行できるため、真のインタラクティブなエクスペリエンスが可能になります。ラベル付けされたオブジェクトには意味論的な制約は課されておらず、アノテーターは自由に「物質」や「物」にラベルを付けることができます [1]。私たちは、アノテーターが名前を付けたり説明したりできるオブジェクトにマークを付けることを提案しましたが、これらの名前や説明は収集しませんでした。アノテーターは、オブジェクトに顕著な順序でラベルを付けるように求められ、1 つのマスクで 30 秒以上ラベルを付ける場合は次の画像に進むことが奨励されました。

このフェーズの開始時に、SAM は一般的なパブリック セグメンテーション データセットを使用してトレーニングされます。データに十分な注釈が付けられた後、SAM は新しく注釈が付けられたマスクを使用してのみ再トレーニングされます。収集されるマスクが増えるにつれて、画像エンコーダーは ViT-B から ViT-H に拡張され、その他のアーキテクチャの詳細が変更され、合計でモデルを 6 回再トレーニングします。モデルが改善されると、マスクあたりの平均アノテーション時間は 34 秒から 14 秒に減少します。マスク注釈の場合、14 秒は COCO [66] より 6.5 倍速く、極点境界ボックスのラベル付け [76、71] よりも 2 倍遅いだけであることに注意してください。SAM の改善により、画像あたりのマスクの平均数は 20 から 44 に増加しました。全体として、この段階で 120,000 枚の画像から 430 万個のマスクを収集しました。

半自動ステージ:このステージでは、マスクの多様性を高め、モデルが何かをセグメント化する能力を向上させることを目指しています。アノテーターが目立たないオブジェクトに集中できるようにするために、まず信頼性の高いマスクを自動的に検出します。次に、これらのマスクを使用したアノテーターの画像を表示し、アノテーションのないオブジェクトにアノテーションを付けるように依頼します。信頼できるマスクを検出するために、一般的な「オブジェクト」カテゴリを使用して、すべての第 1 段階マスクに対して境界ボックス検出器 [84] をトレーニングします。この段階で、さらに 590 万枚のマスク (合計 1020 万枚のマスク) を 180k の画像から収集しました。最初の段階と同様に、新しく収集したデータを使用してモデルを定期的に (5 回) 再トレーニングします。自動マスクを除くと、これらのオブジェクトに注釈を付けるのは難しいため、マスクあたりの平均注釈時間は 14 秒から 34 秒に戻りました。画像あたりのマスクの平均数は 44 から 72 に増加しました (自動マスクを含む)。

全自動ステージ:最後のステージでは、注釈は完全に自動で付けられます。これは、モデルの 2 つの主な機能強化のおかげです。まず、このステージの開始時に、前のステージでの多様化マスクを含め、モデルを大幅に改善するのに十分なマスクを収集しました。第 2 に、この段階までに、曖昧さを認識したモデルを開発しました。これにより、曖昧な場合に効果的なマスクを予測できるようになります。具体的には、32×32 ポイントの規則的なグリッドをモデルにプロンプ​​トし、各ポイントについて、有効なオブジェクトに対応すると思われるマスクのセットを予測します。曖昧性認識モデルは、サブセクション、サブセクション、およびサブセクションまたはサブサブセクションのオブジェクト全体を返すことができます。私たちのモデルの IoU 予測モジュールは、信頼できるマスクを選択するために使用されます。さらに、安定したマスクのみを識別して選択します (確率マップが 0.5 −δ と 0.5+δ でセグメント化されている場合、結果は同様であり、マスクは安定していると見なされます) )。最後に、信頼できる安定したマスクを選択した後、非最大抑制 (NMS) を適用して重複マスクをフィルターします。小さいマスクの品質をさらに向上させるために、拡大された画像の複数の重複するクロップも処理します。このフェーズの詳細については、§B を参照してください。データセット内の 1,100 万枚の画像すべてに完全自動マスク生成を適用し、合計 11 億枚の高品質マスクを生成しました。次に、このデータセット SA-1B について説明し、分析します。

5. あらゆるデータセットをセグメント化する

当社の SA-1B データセットは、当社のデータ エンジンを使用して収集された 1,100 万枚の多様で高解像度のライセンス取得済みのプライバシー保護画像と 1.1B の高品質セグメンテーション マスクで構成されています。SA-1B を既存のデータセットと比較し、マスクの品質と特性を分析します。将来のコンピューター ビジョンの基本モデルの開発を支援するために、SA-1B をリリースします。SA-1B は有利なライセンス契約と特定の研究用途に対する研究者保護措置に基づいてリリースされることに注意してください。

画像:写真家と直接協力するベンダーから 1,100 万枚の新しい画像セットのライセンスを取得しました。画像は高解像度 (平均 3300 × 4950 ピクセル) であり、結果として生じるデータ サイズにより、アクセシビリティとストレージの課題が生じる可能性があります。そのため、最短辺を 1500 ピクセルに設定してダウンサンプリングした画像を公開します。ダウンサンプリング後でも、私たちの画像解像度は多くの既存の視覚データセットよりもはるかに高いです (たとえば、COCO [66] 画像は約 480×640 ピクセルです)。現在のほとんどのモデルは、これよりもはるかに低い入力解像度で動作することに注意してください。投稿された画像では顔と車のナンバープレートがぼかされています。

マスクの品質:マスクの品質を推定するために、500 枚の画像 (約 50,000 個のマスク) をランダムにサンプリングし、専門のアノテーターにこれらの画像内のすべてのマスクの品質を向上させるよう依頼します。アノテーターは、モデルとピクセル精度の「ブラシ」および「消しゴム」編集ツールを使用して修正を行います。このプロセスにより、自動的に予測されたマスクと専門的に修正されたマスクの比較が行われました。各マスク ペア間の IoU を計算したところ、比較の 94% で IoU が 90% を超えていることがわかりました (比較の 97% で IoU が 75% を超えていました)。比較のために、以前の研究では、アノテーター間の合意は 85 ~ 91% の IoU と推定されました [44、60]。セクション 7 の実験では、マスクがさまざまなデータセットと比較して高品質であること、およびモデルのトレーニングが自動マスクとすべてのデータ エンジンによって生成されたマスクの間で適度に良好に実行されることを人間によるスコアリングで確認しています。

マスクのプロパティ:図 5 では、既存の最大のセグメンテーション データセットと比較するために、SA-1B のオブジェクト中心の空間分布をプロットしています。共通の写真家バイアスがすべてのデータセットに存在します。SA-1B は画像の隅の広い範囲をカバーしているのに対し、COCO [66] と Open Images V5 [60] はより顕著な中央バイアスを持っていることがわかります。図 6 (凡例) では、これらのデータセットをサイズ別に比較しています。2 番目に大きい Open Images と比較して、SA-1B には 11 倍の画像と 400 倍のマスクがあります。平均すると、Open Images よりも画像ごとに 36 倍多くのマスクがあります。この点で最も近いデータセットである ADE20K の画像あたりのマスク数は依然として 3.5 分の 1 です。図 6 (左) は、各イメージのマスク分布をプロットしています。次に、図 6 (中央) のイメージの相対マスク サイズ (マスク領域をイメージ領域の平方根で割ったもの) を確認します。予想通り、データセットには画像ごとに多くのマスクが含まれているため、小および中マスクの割合が高くなる傾向もあります。最後に、形状の複雑さを分析するために、図 6 (右) のマスクの凹面 (1 からマスク面積を引いた値を凸包面積で割った値) を調べました。形状の複雑さはマスク サイズと相関があるため、マスク サイズのサブセクションからの最初の層化サンプリングによってデータセットのマスク サイズ分布を制御します。マスクの凹面分布が他のデータセットの凹面分布と類似していることがわかります。

6. 何でもセグメント化する RAI 分析

次に、SA-1B と SAM を使用する場合に考えられる公平性の問題とバイアスを調査することにより、作業の責任ある人工知能 (RAI) 分析を実行します。私たちは、SA-1B の地理的および所得分布と、人々の保護される属性に関する SAM の公平性に焦点を当てています。セクション F では、データセット、データ アノテーション、モデル カードも提供します。

地理と来歴
これらの国の画像は標準的な方法を使用して撮影されたものと推測されます。図 7 では、SA-1B の各国の画像数 (左) と画像数の多い上位 50 か国 (右) を視覚化しています。最初の 3 か国は世界の異なる地域から来ていることに注意してください。SA-1B はヨーロッパ、アジア、オセアニア、中所得国で画像の割合がはるかに高く、アフリカを含むすべての地域で少なくとも 2,800 万枚のマスクがあり、これは地域や所得全体にわたってかなり一貫しています (各画像マスクは 94- 108)

ここに画像の説明を挿入 セグメンテーションの公平性

私たちは、グループ間の SAM パフォーマンスの違いを測定することにより、認識されている性別表現、認識されている年齢層、認識されている肌の色の間の潜在的な公平性の問題を調査しました。性別表現と年齢には More Inclusive Population Annotation (MIAP) [87] データセットを使用し、肌の色には独自のデータセットを使用します。SAM は、(信頼区間が大きいにもかかわらず) 古いと考えられるもので最も優れたパフォーマンスを発揮します。

7. ゼロショット転送実験

このセクションでは、SAM モデルを使用してゼロショット転送実験を実施します: 5 つのタスクが考慮され、そのうち 4 つは SAM のトレーニングに使用される高速セグメンテーション タスクとは大きく異なり、トレーニング中に表示されなかったデータ セットとタスクが評価されます。 (CLIPに続きます)。データセットには、SA-1B には表示されない新しい画像分布 (水中画像や自己中心的な画像など) が含まれる場合があります。

私たちの実験では、まずヒント可​​能なセグメンテーションの中核となる目標、つまり任意のヒントから効率的なマスクを生成することをテストします。単一の前景ポイント キューは、他のより具体的なキューに比べて曖昧になる可能性が高いため、困難なシナリオを強調します。続いて、SAM に、(1) エッジ検出を実行する、(2) すべてをセグメント化する、つまりオブジェクト提案の生成、(3) 検出されたオブジェクトをセグメント化する、つまりインスタンスのセグメント化、(4) 概念実証として、無料のform テキスト内のオブジェクトをセグメント化します。これら 4 つのタスクは、SAM によってトレーニングされ、キュー エンジニアリングによって実現されるキュー可能なセグメンテーション タスクとは大きく異なります。私たちの実験はアブレーション研究で終わります。

(1) SAM は、MAE [47] によって事前にトレーニングされた ViT-H [33] 画像エンコーダを使用します。
(2) SAM は SA-1B でトレーニングされ、データセットにはデータ エンジンの最終ステージによって自動的に生成されたマスクのみが含まれます。

1. ゼロショット一点有効マスク評価

タスク:点は複数のオブジェクトを参照できるため、単一の前景点からオブジェクトをセグメント化することを評価します。ほとんどのデータセットのラベル マスクは、考えられるすべてのマスクを列挙していないため、自動メトリクスの信頼性が低くなる可能性があります。したがって、アノテーターがマスクの品質を 1 (意味がない) から 10 (ピクセル完全) で評価する標準的な mIoU メトリクス (つまり、予測マスクとラベル マスク間のすべての IoU の平均) を補足します。

デフォルトでは、インタラクティブ セグメンテーションの標準評価プロトコルに従い、ラベル マスクの「中心」(マスク内の距離変換の最大値) からポイントをサンプリングします。デフォルトでは、モデル内の最も決定的なマスクのみを評価します。ベースラインはすべて単一マスク方式です。主に、強力なインタラクションセグメンタである RITM [92] と比較します。

データセット: mIoU 評価には、異なる画像分布を持つ 23 個のデータセットからなる新しくコンパイルされたセットを使用します。

上の図は、23 のデータセットに対するポインティング マスクの評価を示しています。(a) 最も強力なシングルポイント セグメンタの SAM と RITM の平均 MIOU。曖昧さのため、マスクは GT と一致しない可能性があります。丸は、SAM の 3 つの予測の中で最も関連性の高い「オラクル」結果を示しています。(b) データセットごとにアノテーターのマスク品質評価を 1 ~ 10 (最悪) (最高) で比較します。すべてのメソッドは、GT マスクの中心をキューとして使用します。(c,d) ポイント数が異なる mIoU。SAM は、以前のインタラクティブ セグメンタを 1 ポイント上回るパフォーマンスを示し、より多くのスコアを獲得しました。絶対 mIoU が 1 ポイントと低いのは、曖昧さの結果です。

ここに画像の説明を挿入

2. ゼロショットターゲット提案

次に、オブジェクト提案生成の中レベルのタスクで SAM を評価します。このタスクは、画期的なシステムの中間ステップとして、物体検出研究において重要な役割を果たしてきました。オブジェクトの提案を生成するには、自動マスク生成パイプラインのわずかに変更されたバージョンを実行し、マスクを提案として出力します。
LVIS v1 で標準の平均再現率 (AR) メトリックを計算しました。LVIS には多数のカテゴリがあり、難しいテストであるため、LVIS に焦点を当てます。ViTDet 検出器 (カスケード マスク R-CNN を備えた ViT-H) として実装された強力なベースラインと比較します。

結果:表 4 では、当然のことながら、ViTDet-H からの検出をオブジェクト提案として使用する (つまり、ゲーム AR 用の DMP メソッド [16]) が全体的に最高のパフォーマンスを発揮することがわかります。ただし、SAM はいくつかの指標で非常に優れています。特に、中型および大型のオブジェクトだけでなく、まれで一般的なオブジェクトの両方でも ViTDet-H よりも優れたパフォーマンスを発揮します。実際、SAM は小さくて頻繁なオブジェクトでのみ ViTDet-H のパフォーマンスを下回ります。ViTDet-H は、SAM とは異なり LVIS 上でトレーニングされているため、LVIS 固有のアノテーション バイアスを簡単に学習できます。また、すべての AR メトリクスで SAM よりもパフォーマンスが大幅に低い SAM のアブレートされたぼやけたバージョンも比較します。

3.ゼロショットテキストをマスクする

最後に、自由形式テキストからのオブジェクトのセグメント化という、より高いレベルのタスクを検討します。この実験は、SAM がテキスト キューを処理できることを実証します。これまでのすべての実験ではまったく同じ SAM を使用しましたが、この実験では SAM のトレーニング手順が変更され、テキストを認識できるようになりましたが、新しいテキスト注釈は必要ありませんでした。具体的には、面積が 1002 を超える手動で収集されたマスクごとに、CLIP 画像の埋め込みを抽出しました。次に、トレーニング中に、抽出した CLIP 画像を最初のインタラクションとして埋め込み、SAM を促します。ここで重要な点は、CLIP の画像埋め込みはテキスト埋め込みと一致するようにトレーニングされるため、トレーニングには画像埋め込みを使用できますが、推論にはテキスト埋め込みを使用できるということです。つまり、推論時に、CLIP のテキスト エンコーダーを通じてテキストを実行し、結果のテキスト埋め込みをプロンプトとして SAM にフィードします。

ここに画像の説明を挿入 結果 上の図に定性的な結果を示します。SAM は、「車輪」などの単純なテキスト キューや「ビーバーの歯のグリル」などのフレーズに基づいてオブジェクトをセグメント化できます。追加のポイント ヒントは、[PhraseClick] と同様に、SAM がテキスト ヒントだけでは正しいオブジェクトを選択できない場合に役立ちます。

4.ゼロショットエッジ検出

議論しないのと同じ

5. ゼロショットインスタンスのセグメンテーション

議論しないのと同じ

8. ディスカッション

1.ベーシックモデル

機械学習の初期の頃から、事前トレーニングされたモデルは下流のタスクに適応されてきました。近年、スケールがますます重視されるようになり、このモデルの重要性がますます高まっており、このタイプのモデルは最近「ベース モデル」と (再) 名前が付けられました。つまり、「大規模な広範なデータでトレーニングされ、幅広い下流タスク」モデル。私たちの研究はこの定義とよく相関していますが、画像セグメンテーションの基礎となるモデルは、コンピューター ビジョンの重要ではあるものの断片的なサブセットを表すため、本質的に範囲が限られていることに注意します。また、私たちのアプローチの一側面を [8] [基礎モデルの機会とリスクについて] と対比し、基礎モデルにおける自己教師あり学習の役割を強調しています。私たちのモデルは自己教師あり手法 (MAE) で初期化されていますが、その能力の大部分は大規模な教師ありトレーニングから得られます。データ エンジンが利用可能なアノテーションを拡張できる場合、教師ありトレーニングは効果的なソリューションを提供します。

2. 組み合わせ

事前トレーニングされたモデルは、トレーニング時に人々が想像していた以上に、新しい能力を強化できます。印象的な例は、CLIP が DALL·E などの大規模システムのコンポーネントとして使用される方法です。これを行うには、SAM に広範囲のセグメンテーション キューに対する効率的なマスクを予測するよう依頼します。その結果、SAM と他のコンポーネントの間に信頼性の高いインターフェイスが作成されます。たとえば、MCC は SAM を簡単に使用して対象オブジェクトをセグメント化し、単一の RGB-D 画像から 3D 再構築への強力な一般化を実現できます。別の例では、ウェアラブル デバイスによって検出された視線によって SAM を促すことができ、それによって新しいアプリケーションが可能になります。SAM は自己中心的な画像などの新しい領域に一般化できるため、そのようなシステムは追加のトレーニングなしで機能します。

3. 制限事項

SAM は全体的には良好なパフォーマンスを示しましたが、完璧ではありませんでした。微細な構造を見逃す可能性があり、小さな切り離されたコンポーネントが幻覚のように見えることもありますが、「ズームイン」のような計算量の多い方法ほど鮮明な境界は生成されません。一般に、多くのポイントが提供される場合、専用の対話型セグメンテーション手法が SAM よりも優れたパフォーマンスを発揮すると予想されます。これらの方法とは異なり、SAM は、高 IoU インタラクション セグメンテーションではなく、汎用性と幅広い用途を考慮して設計されています。さらに、SAM はリアルタイムでヒントを処理できますが、重い画像エンコーダを使用する場合、SAM の全体的なパフォーマンスはリアルタイムではありません。テキストをマスクに変換するタスクに対する私たちの試みは探索的なものであり、完全に堅牢ではありませんが、もっと努力すれば改善できると考えています。SAM は多くのタスクを実行できますが、セマンティック セグメンテーションおよびパノラマ セグメンテーションのための単純なキューをどのように設計するかは不明です。最後に、[ilastik: (生体) 画像分析のための対話型機械学習] などのドメイン固有のツールがあり、これらはそれぞれのドメインで SAM を上回るパフォーマンスを発揮すると予想されます。

要約する

Segment Anything プロジェクトは、基礎となるモデルに対する画像のセグメンテーションを改善する試みの時代です。私たちの主な貢献は、この飛躍を可能にする新しいタスク (ヒントテーブル セグメンテーション)、モデル (SAM)、およびデータセット (SA-1B) です。SAM がコミュニティでの使用に関して基本モデルの地位に達しているかどうかはまだわかりませんが、この取り組みにどのような観点が期待されるにせよ、1B を超えるマスクのリリースと高速セグメンテーション モデルは道を開くのに役立つでしょう。
 

学ぶべきことが多すぎるので、まずそれを見てみましょう、クークークー。つづく

おすすめ

転載: blog.csdn.net/qq_38915354/article/details/130068960