セグメント・エニシング論文の解釈

論文リンク: https://arxiv.org/pdf/2304.02643.pdf

まとめ:

このペーパーでは、画像セグメンテーションのための新しいタスク、モデル、データセットである Segment Anything (SA) プロジェクトについて説明します。データ収集ループで効率的なモデルを使用して、1,100 万枚の許可されたプライバシーを尊重した画像に 10 億を超えるマスクを使用して、これまで (現時点で) 最大のセグメンテーション データセットを構築しました。このモデルはヒント可能になるように設計およびトレーニングされているため、ゼロサンプルを新しい画像分布およびタスクに転送できます。は、多くのタスクでその機能を評価し、そのゼロショット パフォーマンスが印象的であることを発見しました。多くの場合、以前の完全に監視された結果と競合するか、それを上回るパフォーマンスさえあります。基本的なコンピューター ビジョン モデル研究の理解を促進するために、セグメント エニシング モデル (SAM) と、1B マスクと 1,100 万枚の画像を含む対応するデータセット (SA-1B) を https://segment-anything.com でリリースします。
ここに画像の説明を挿入します

1 はじめに

  Web スケールのデータセットで事前トレーニングされた大規模な言語モデルは、強力なゼロショットおよび少数ショットの一般化により NLP に革命をもたらしています [10]。これらの「ベース モデル」[8] は、トレーニング中に見られるタスクやデータ分布を超えて一般化できます。この機能は通常、ヒント エンジニアリングによって実現されます。ヒント エンジニアリングでは、手作りのテキストを使用して言語モデルに、当面のタスクに対して効果的なテキスト応答を生成するよう促します。Web のリッチ テキスト コーパスを使用してスケーリングおよびトレーニングすると、これらのモデルのゼロショットおよび少数ショットのパフォーマンスは、微調整されたモデルと驚くほどよく比較されます (場合によっては、一致することさえあります) [10、21]。経験的な傾向によれば、この動作はモデル サイズ、データセット サイズ、トレーニング計算の総量が増加するにつれて改善されることが示されています [56、10、21、51]。
  程度は低いものの、コンピュータ ビジョンの分野でも基本モデルが研究されています。おそらく最も有名なイラストは、Web 上のテキストと画像のペアを並べたものです。たとえば、CLIP [82] と ALIGN [55] は、対照学習を使用して、2 つのモダリティを調整するテキスト エンコーダーと画像エンコーダーをトレーニングします。トレーニング後、エンジニアリングされたテキスト キューは、新しい視覚概念とデータ分布にゼロショットで一般化できます。このエンコーダは、他のモジュールと効果的に組み合わせて、画像生成などの下流タスクを実行することもできます (例: DALL・E [83])。ビジョンエンコーダと言語エンコーダでは大きな進歩が見られましたが、コンピュータビジョンはこの範囲を超えた幅広い問題を包含しており、その多くについては豊富なトレーニングデータが存在しません。
  この記事の目的は、画像セグメンテーションの基本モデルを確立することです。つまり、この論文では、ヒント可能なモデルを開発し、強力な一般化を可能にするタスクを使用して広範なデータセットでそれを事前トレーニングすることを試みています。このモデルを使用して、迅速なエンジニアリングを使用して、新しいデータ分布における一連の下流のセグメンテーションの問題を解決することを目指しています。
このプログラムの成功は、タスク、モデル、データという 3 つのコンポーネントにかかっています。それらを開発するために、この文書では画像セグメンテーションに関する次の問題に対処します。

  • どのようなタスクがゼロショット汎化を達成しますか?
  • 対応するモデル アーキテクチャは何ですか?
  • このタスクとモデルをサポートできるデータは何ですか?

  これらの問題は複雑であり、包括的な解決策が必要です。まず、強力な事前トレーニング ターゲットを提供し、幅広い下流アプリケーションを可能にするのに十分一般的な、キュー可能なセグメンテーション タスクを定義します。このタスクには、柔軟なプロンプトをサポートし、対話型の使用を可能にするプロンプトが表示されたときにリアルタイムでセグメンテーション マスクを出力できるモデルが必要です。モデルをトレーニングするには、多様で大規模なデータ ソースが必要です。残念ながら、セグメント化されたデータの Web スケールのソースはありません。この問題を解決するために、「データ エンジン」を構築しました。つまり、効率的なモデルを使用してデータの収集を支援し、新しく収集されたデータを使用してモデルを改善します。 。次に、相互に関連する各コンポーネントについて説明し、その後に作成されたデータセットと、方法の有効性を実証する実験について説明します。

  • タスク (§2)。NLP および最近のコンピューター ビジョンでは、ベース モデルは、「ヒント」技術の使用を通じて新しいデータ セットおよびタスクのゼロショット学習および少数ショット学習を可能にする有望な開発です。この一連の作業に触発されて、この論文では、セグメンテーション プロンプトが与えられた場合に有効なセグメンテーション マスクを返すことを目的とした、プロンプト可能なセグメンテーション タスクを提案します (図 1a を参照)。プロンプトは、画像内で何をセグメント化するかを指定するだけです。たとえば、プロンプトには、オブジェクトを識別する空間情報またはテキスト情報を含めることができます。有効な出力マスクの要件は、キューがあいまいで複数のオブジェクトを指している場合でも (たとえば、シャツ上のドットはシャツまたはそれを着ている人のいずれかを表す可能性があります)、出力は次の場合に適切なマスクである必要があることを意味します。それらのオブジェクトの少なくとも 1 つ。キュー セグメンテーション タスクを事前トレーニングのターゲットとして考慮し、キュー エンジニアリングを通じて一般的な下流のセグメンテーション タスクを解決します。
  • モデル (§3)。手がかりとなるセグメンテーション タスクと実際の使用の目標は、モデル アーキテクチャに制約を課します。特に、モデルは柔軟なヒントをサポートし、対話型の使用を可能にするマスクのリアルタイムの償却計算を必要とし、曖昧さを感知できなければなりません。シンプルな設計は 3 つの制約をすべて満たします。つまり、強力な画像エンコーダーが画像の埋め込みを計算し、キュー エンコーダーがキューを埋め込み、セグメンテーション マスクを予測する軽量のマスク デコーダーで両方の情報ソースを結合します。このモデルをセグメント エニシング モデル (略して SAM) と呼びます (図 1b を参照)。SAM を画像エンコーダとプロンプト エンコーダ/マスク デコーダに分離することにより、同じ画像埋め込みを異なるプロンプトで再利用できます (およびそのコスト償却)。画像が埋め込まれている場合、ヒント エンコーダーとマスク デコーダーが Web ブラウザーのヒントからマスクを予測するのに 50 ミリ秒かかります。ポイント、ボックス、マスク キューに焦点を当て、自由形式のテキスト キューを使用して予備結果も表示します。SAM を曖昧にするために、単一のキューに対して複数のマスクを予測するように設計されており、シャツや人物の例などのあいまいさを SAM が自然に処理できるようになります。
    ここに画像の説明を挿入します
  • データ エンジン (§4)。新しいデータ分布に対する強力な一般化を達成するには、既存のセグメンテーション データセットではなく、大規模で多様なマスク セットで SAM をトレーニングする必要があります。基本モデルへの一般的なアプローチはオンラインでデータを取得することですが[82]、マスク自体は豊富ではないため、別の戦略が必要です。私たちの解決策は、インザループ モデル データセット アノテーションを使用してモデルを共同開発する「データ エンジン」を構築することでした (図 1c を参照)。当社のデータ エンジンには、支援付き手動、半自動、完全自動の 3 つの段階があります。最初の段階では、SAM は、従来のインタラクティブなセグメンテーション設定と同様に、アノテーターがマスクにアノテーションを付けるのに役立ちます。第 2 段階では、SAM はオブジェクトの位置の候補を提示することで、オブジェクトのサブセットのマスクを自動的に生成できます。アノテーターは残りのオブジェクトに注釈を付けることに重点を置き、マスクの多様性を高めるのに役立ちます。最終段階では、SAM に前景点の規則的なグリッドが要求され、画像ごとに平均 100 個の高品質マスクが生成されます。
    ここに画像の説明を挿入します
  • データセット (§5)。最終的なデータセット SA-1B には、1,100 万枚の許可されたプライバシー保護画像からの 10 億枚を超えるマスクが含まれています (図 2 を参照)。データ エンジンの最終段階を使用した完全に自動化された SA-1B マスクの収集には、既存のセグメンテーション データセットの 400 倍のマスクがあり [66、44、117、60]、マスクは高品質であることが広範囲に検証されており、多様性。私たちは、SA-1B が SAM を堅牢かつ汎用的に訓練するために使用されるだけでなく、新しい基礎モデルの構築を目的とした研究の貴重なリソースとなることを期待しています。
  • 責任ある AI (§6)。SA-1B および SAM の使用における潜在的な公平性の問題とバイアスを調査し、報告しました。SA-1B の画像は地理的および経済的に多様な国々をカバーしており、SAM は異なる集団間でも同様に機能することがわかります。全体として、これにより私たちの作業が現実世界のユースケースに対してより公平なものになることを願っています。付録ではモデル カードとデータセット カードを提供します。
  • 実験 (§7)。当社は SAM の広範な評価を実行します。まず、SAM は、23 のセグメンテーション データセットの多様なセットを使用して、個々の前景点から高品質のマスクを生成します。通常、手動で注釈が付けられたグラウンド トゥルースよりもわずかに低いだけです。プロンプトエンジニアリングを使用したゼロショット移行プロトコルの下で、エッジ検出、オブジェクト提案の生成、インスタンスのセグメンテーション、テキストからマスクへの予測の初期探索など、さまざまな下流タスクで一貫して強力な定量的および定性的な結果が達成されました。これらの結果は、SAM をすぐに使用して、迅速なエンジニアリングを行うことで、SAM トレーニング データを超えたオブジェクトや画像の分布を含むさまざまなタスクを解決できることを示しています。ただし、§8 で説明するように、改善の余地はまだ存在します。
      研究目的で、SA-1B データセットをリリースし、寛容なオープン ライセンス (Apache 2.0) に基づいて https://segment-anything.com で SAM を利用できるようにしました。また、オンライン デモンストレーションを通じて SAM の機能を実証しました。

2. 任意のオブジェクトタスクをセグメント化する

  NLP からインスピレーションを得て、次のトークン予測タスクはベース モデルの事前トレーニングに使用され、ヒント エンジニアリングを通じてさまざまな下流タスクを解決します [10]。セグメンテーションの基本モデルを確立するために、この文書では同様の機能を持つタスクを定義することを目的としています。
ここに画像の説明を挿入します

  • タスク。まず、キューの概念を NLP からセグメンテーションに変換します。ここで、キューは、前景/背景点のセット、大まかなボックスやマスク、自由形式のテキスト、または一般に、データ内の情報を表すあらゆるものにすることができます。セグメント化される画像。したがって、プロンプト可能な分割タスクは、任意のプロンプトに対して有効な分割マスクを返すことです。「有効な」マスクの要件は、キューがあいまいで複数のオブジェクトを指している場合でも (たとえば、シャツと人の例を思い出してください。図 3 を参照)、出力はこれらのオブジェクトの少なくとも 1 つに対するものでなければならないことを意味します。マスキング。この要件は、言語モデルがあいまいな手がかりに対して一貫した応答を出力することを期待することに似ています。このタスクが選択されたのは、自然な事前トレーニング アルゴリズムと、ヒントを介してゼロ サンプルを下流のセグメンテーション タスクに転送する一般的な方法につながるためです。
  • 事前トレーニング。プロンプト可能なセグメンテーション タスクは、トレーニング サンプルごとに一連のプロンプト (ポイント、ボックス、マスクなど) をシミュレートし、モデルのマスク予測をグランド トゥルースと比較する自然な事前トレーニング アルゴリズムを提案します。この論文は、インタラクティブ セグメンテーション [109, 70] からこのアプローチを採用していますが、十分なユーザー入力後に最終的に有効なマスクを予測することを目的とするインタラクティブ セグメンテーションとは異なり、この論文の目標は、あらゆるプロンプトに対して常に有効なマスクを予測することです。プロンプトがあいまいです。これにより、事前トレーニングされたモデルが、データ エンジン §4 で必要な自動アノテーションなど、曖昧さを含むユースケースで効果的であることが保証されます。このタスクを適切に実行することは困難であり、§3 で説明する特殊なモデリングとトレーニング損失の選択が必要であることに注意してください。
  • 移住する。事前トレーニング タスクにより、モデルは推論時にあらゆるキューに適切に応答できるようになり、適切なキューをエンジニアリングすることで下流のタスクを解決できます。たとえば、猫用の境界ボックス検出器がある場合、検出器のボックス出力をヒントとしてモデルに提供することで、猫のインスタンスのセグメンテーションを解決できます。一般に、一連の実際的なセグメンテーション タスクが手がかりとして機能します。自動データセット アノテーションに加えて、§7 の実験では 5 つの異なるタスク例を検討します。
  • 関連するタスク。セグメンテーションは幅広い分野です。インタラクティブ セグメンテーション [57、109]、エッジ検出 [3]、スーパーピクセル化 [85]、オブジェクト提案生成 [2]、前景セグメンテーション [94]、セマンティック セグメンテーション [90]、インスタンス セグメンテーション [66] があります。 ]、パノラマセグメンテーション[59]など。キュー セグメンテーション タスクの目標は、キュー エンジニアリングを通じて、多くの (すべてではないが) 既存および新規のセグメンテーション タスクに適応できる、広範な機能モデルを作成することです。この能力はタスクの一般化の一種です [26]。これは、マルチタスク パーティショニング システムに関する以前の作業とは異なることに注意してください。マルチタスク システムでは、単一のモデルが結合セマンティック、インスタンス、パノプティック セグメンテーションなどの固定セットのタスクを実行します [114、19、54] が、トレーニング タスクとテスト タスクは同じです。私たちの研究における重要な違いは、キュー セグメンテーション用にトレーニングされたモデルを、より大きなシステムのコンポーネントとして使用して、推論時に新しいさまざまなタスクを実行できることです。たとえば、インスタンス セグメンテーションを実行するには、キュー セグメンテーション モデルを組み合わせます。既存の物体検出器と組み合わせて使用​​します。
  • 話し合う。ヒントとコンポジションは、単一のモデルをスケーラブルな方法で使用できるようにする強力なツールであり、モデルの設計時には不明だったタスクを達成できる可能性があります。このアプローチは、DALL・E [83] 画像生成システムのテキストと画像の位置合わせコンポーネントである CLIP [82] など、他の基本モデルの使用方法に似ています。私たちは、プロンプトエンジニアリングなどの技術によって推進されるコンポーザブルシステムの設計は、固定された一連のタスク用に特別に訓練されたシステムよりも幅広い用途を実現すると期待しています。構成の観点からキュー セグメンテーションとインタラクティブ セグメンテーションを比較することも興味深いです。インタラクティブ セグメンテーション モデルは人間のユーザー向けに設計されていますが、これから説明するように、キュー セグメンテーション用にトレーニングされたモデルをより大きなアルゴリズム システムに結合することもできます。

3. オブジェクトモデルをセグメント化する

次に、高速セグメンテーションを実現するためのセグメント化任意モデル (SAM) について説明します。SAM には、図 4 に示すように、イメージ エンコーダ、フレキシブル キュー エンコーダ、および高速マスク デコーダの 3 つのコンポーネントがあります。Transformer ビジョン モデル [14、33、20、62] は、(償却された) リアルタイム パフォーマンスに関する特定のトレードオフを考慮して構築されました。ここではこれらのコンポーネントについて概要を説明します。詳細については、§A を参照してください。
ここに画像の説明を挿入します

  • 画像エンコーダ。スケーラビリティと強力な事前トレーニング方法を動機として、この論文では MAE [47] を使用して、高解像度入力 [62] を処理するために最小限に適合した Visual Transformer (ViT) [33] を事前トレーニングします。画像エンコーダーは画像ごとに 1 回実行され、モデルにプロンプ​​トを表示する前に適用できます。
  • ヒントエンコーダ。スパース (ポイント、ボックス、テキスト) と密 (マスク) の 2 つのキュー セットを考えてみましょう。位置エンコーディング [95] を介してポイントとボックスを表し、CLIP [82] の既製のテキスト エンコーダを使用して、プロンプト タイプごとに学習された埋め込みと自由形式のテキストを合計します。密なキュー (つまりマスク) は畳み込み埋め込みを使用し、画像埋め込み要素と加算されます。
  • マスクデコーダ。マスク デコーダは、画像の埋め込み、ヒントの埋め込み、および出力トークンをマスクに効率的にマッピングします。この設計は [14、20] からインスピレーションを受けており、Transformer デコーダ ブロック [103] の修正とそれに続くダイナミック マスク予測ヘッドを採用しています。修正されたデコーダー ブロックは、キューのセルフ アテンションとクロス アテンションを両方向 (キューから画像の埋め込みへ、またはその逆) に使用してすべての埋め込みを更新します。2 つのブロックを実行した後、画像埋め込みをアップサンプリングし、MLP が出力ラベルを動的線形分類器にマップし、画像位置ごとにマスクされた前景確率を計算します。
  • あいまいさを解決します。曖昧なヒントが与えられた場合、モデルは 1 つの出力を使用して複数の有効なマスクを平均します。この問題に対処するために、単一のキューに対して複数の出力マスクを予測するようにモデルを変更しました (図 3 を参照)。ほとんどの一般的なケースを解決するには、3 つのマスク出力で十分であることがわかりました (ネストされたマスクは通常、全体、部分、サブ部分の 3 つの深さまでです)。トレーニング中は、マスクの損失が最小限に抑えられたバックプロパゲーションのみを実行します [15、45、64]。マスクをランク付けするために、モデルは各マスクの信頼スコア (つまり、推定 IoU) を予測します。
  • 効率。全体的なモデル設計は主に効率によって左右されます。事前に計算された画像の埋め込みを考慮すると、プロンプト エンコーダーとマスク デコーダーは Web ブラウザーで実行され、CPU で約 50 ミリ秒かかります。この実行時のパフォーマンスにより、モデルはシームレスなリアルタイムの対話を促すことができます。
  • 喪失と訓練。[14] で使用される焦点損失 [65] とダイス損失 [73] の線形結合を使用してマスク予測を監視します。幾何学的なキューを組み合わせて使用​​して、キュー付きセグメンテーション タスクをトレーニングします (テキスト キューについては §7.5 を参照)。[92、37] に従って、11 ラウンドにわたって各マスク内のキューをランダムにサンプリングすることによってインタラクティブな設定がシミュレートされ、SAM をデータ エンジンにシームレスに統合できるようになります。

4. データエンジンを分割する

  セグメンテーション マスクはインターネット上に豊富にないため、11b マスク データセット SA-1B を収集するデータ エンジンを構築しました。データ エンジンには 3 つのステージがあります: (1) モデル支援の手動アノテーション ステージ、(2) 自動的に予測されたマスクとモデル支援のアノテーションが混合される半自動ステージ、(3)モデルはアノテーターからの入力なしでマスクを生成します。次にそれぞれについて詳しく説明します。

  • 補助手動ステージ。最初の段階では、従来のインタラクティブ セグメンテーションと同様に、プロのアノテーター チームが、SAM でサポートされているブラウザベースのインタラクティブ セグメンテーション ツールを使用して、前景/背景のオブジェクト ポイントをクリックしてマスクにラベルを付けます。マスクは、PixelPrecise の「ブラシ」ツールと「消しゴム」ツールを使用して調整できます。モデル支援アノテーションはブラウザ内で直接リアルタイムで実行され (事前計算された画像埋め込みを使用)、真のインタラクティブなエクスペリエンスが可能になります。私たちはアノテーション付きオブジェクトに意味論的な制約を課さず、アノテーターは自由に「物」や「もの」にラベルを付けます [1]。アノテーターは、名前を付けたり説明したりできるオブジェクトにマークを付けますが、これらの名前や説明を収集しないことをお勧めします。アノテーターは、オブジェクトの目立つ点に基づいてラベルを付けるよう求められ、マスクのアノテーションが 30 秒を超えた場合は次の画像に進むことが奨励されました。
  • このフェーズの開始時に、SAM は一般的なパブリック セグメンテーション データセットを使用してトレーニングされます。データに十分な注釈が付けられた後、新しく注釈が付けられたマスクのみを使用して SAM が再トレーニングされます。より多くのマスクが収集されるにつれて、画像エンコーダーが ViT-B から ViT-H に拡張され、その他のアーキテクチャの詳細が開発されました。モデルを合計 6 回再トレーニングしました。モデルが改善されると、マスクあたりの平均アノテーション時間は 34 秒から 14 秒に減少します。14 秒は COCO のマスク アノテーション [66] よりも 6.5 倍速く、極点の境界ボックスのラベル付け [76、71] よりもわずか 2 倍遅いことに注意してください。SAM の改善により、画像あたりのマスクの平均数は 20 マスクから 44 マスクに増加しました。全体として、この段階で 120,000 枚の画像から 430 万枚のマスクを収集しました。
  • 半自動ステージ。現段階での目標は、マスクの多様性を高めてモデルのあらゆるセグメント化能力を向上させることです。アノテーターが目立たないオブジェクトに焦点を当てられるようにするために、まず自信のあるマスクを自動的に検出します。次に、これらのマスクが事前に入力された画像をアノテーターに示し、他のアノテーションのないオブジェクトにアノテーションを付けるように依頼しました。信頼性マスクを検出するために、共通の「オブジェクト」カテゴリを使用して、すべての第 1 段階マスクに対して境界ボックス検出器 [84] をトレーニングしました。この段階で、18 万枚の画像からさらに 590 万枚のマスク (合計 1,020 万枚のマスク) を収集しました。第 1 段階と同様に、新しく収集したデータに基づいてモデルを定期的に (5 回) 再トレーニングします。これらのオブジェクトはより困難であるため、マスクあたりの平均アノテーション時間は 34 秒に戻りました (自動マスクを除く)。画像あたりのマスクの平均数は 44 から 72 に増加しました (自動マスクを含む)。
  • 全自動ステージ。最終段階では、ラベル付けが完全に自動で行われます。これは、私たちのモデルに 2 つの主な機能強化があるため可能です。まず、このステージの開始時に、前のステージとは異なるマスクを含め、モデルを大幅に改善するのに十分なマスクを収集します。第 2 に、この段階までに、曖昧さがある場合でも有効なマスクを予測できる曖昧性認識モデルを開発しました。具体的には、32×32 の規則的な点のグリッドでモデルをキューにし、各点について有効なオブジェクトに対応する可能性のあるマスクのセットを予測します。ファジー知覚モデルでは、点が特定のパーツまたはサブパーツ上にある場合、モデルはサブパーツ、ローカル オブジェクト、およびオブジェクト全体を返します。モデルの IoU 予測モジュールは、信頼マスクを選択するために使用されます。さらに、安定したマスクのみを識別して選択します (0:5−δ と 0:5+δ の確率マップを閾値化すると、同様のマスク、つまりマスクが得られます)安定していると考えられます)。最後に、信頼性マスクと安定性マスクを選択した後、非最大抑制 (NMS) アルゴリズムを使用して重複データをフィルター処理します。小さいマスクの品質をさらに向上させるために、アップスケールされた画像の複数の重複するクロップも処理します。このフェーズの詳細については、§B を参照してください。データセット内の 1,100 万枚すべての画像に完全に自動化されたマスク生成を適用し、合計 11 億枚の高品質マスクが生成されます。次に、結果として得られるデータセット SA-1B について説明し、分析します。

5. データセット

  提案されたデータセット SA-1B は、データ エンジンで収集された 1,100 万枚の異なる高解像度の認証済みプライバシー保護画像と 1.1B の高品質セグメンテーション マスクで構成されています。SA-1B を既存のデータセットと比較し、マスクの品質と特性を分析します。私たちは、コンピューター ビジョンの基本モデルの将来の開発を支援するために、SA-1B をリリースします。SA-1B は、特定の研究用途および研究者を保護するために有利なライセンス契約に基づいてリリースされることに注意してください。

  • 画像。私たちは、写真家と直接協力するプロバイダーから 1,100 万枚の新しい画像セットのライセンスを取得しました。画像は高解像度 (平均 3300 × 4950 ピクセル) であり、結果として生じるデータ サイズにより、アクセシビリティとストレージの課題が生じる可能性があります。そこで、最短辺を1500ピクセルに設定してダウンサンプリングした画像を公開します。ダウンサンプリング後でも、画像の解像度は多くの既存の視覚データセットよりも大幅に高くなります (たとえば、COCO [66] 画像は約 480×640 ピクセルです)。現在のほとんどのモデルは、はるかに低い解像度の入力で動作することに注意してください。公開された写真では顔やナンバープレートがぼかされている。
  • マスク。当社のデータ エンジンは 11 億枚のマスクを生成し、その 99.1% は完全に自動生成されました。したがって、自動マスクの品質は非常に重要です。これらを専門的なアノテーションと直接比較し、さまざまなマスク プロパティが顕著なセグメンテーション データセットとどのように比較されるかを調査します。私たちの主な結論(以下の分析と§7 の実験で実証されているように)は、私たちの自動マスクは高品質であり、モデルのトレーニングに効果的であるということです。これらの発見に基づいて、SA-1B には自動生成されたマスクのみが含まれています。
  • マスクの品質。マスクの品質を推定するために、500 枚の画像 (約 50,000 個のマスク) をランダムにサンプリングし、専門のアノテーターにこれらの画像内のすべてのマスクの品質を向上させるよう依頼しました。Annotator は、モデルとピクセル精度のブラシおよび消しゴム編集ツールを使用してこれを行います。このプロセスでは、自動的に予測され、専門的に修正されたマスクのペアが生成されます。組み合わせの各ペア間の IOU を計算したところ、組み合わせの 94% で IOU が 90% を超えていることがわかりました (組み合わせの 97% で IOU が 75% を超えていました)。比較のために、以前の研究では、アノテーター間の合意は 85 ~ 91% の IoU であると推定されています [44、60]。§7 の実験では、さまざまなデータセットと比較してマスクの品質が高く、自動マスクでのモデルのトレーニングがデータ エンジンを使用して生成されたすべてのマスクとほぼ同等であることが人間によるスコアリングによって確認されています。
    ここに画像の説明を挿入します
  • マスクのプロパティ。図 5 では、SA-1B の物体中心の空間分布をプロットし、それを既存の最大セグメンテーション データセットと比較します。共通の写真家の偏見はすべてのデータセットに存在します。最も類似した分布を持つ 2 つのデータセットである LVIS v1 [44] および ADE20K [117] と比較して、SA-1B の画像コーナー カバレージがより大きいのに対し、COCO [66] および Open Images V5 [60] はより顕著な中心を持っていることがわかります。バイアス。図 6 (凡例) では、これらのデータセットをサイズ別に比較しています。SA-1B には、次に大きいオープン画像に比べて 11 倍の画像と 400 倍のマスクがあります。平均して、各画像には開いた画像の 36 倍のマスクがあります。この点で最も近いデータセットである ADE20K の画像あたりのマスク数は依然として 3.5 分の 1 です。図 6 (左) は、マスク周辺部の分布をプロットしています。次に、図 6 (中央) の画像に対するマスク サイズ (マスク領域を画像領域の平方根で割った値) を調べます。予想通り、データセットには画像ごとに多くのマスクが含まれているため、相対的なサイズが小さいおよび中程度のマスクがより多く含まれる傾向があります。最後に、形状の複雑さを分析するために、図 6 (右) のマスクの凹面 (1 からマスク面積を引いた値をマスクの凸包面積で割った値) を調べます。形状の複雑さはマスク サイズに関連しているため、データセットのマスク サイズ分布は、ビン化されたマスク サイズからの最初の層化サンプリングによって制御されます。マスクのバンプ分布は、他のデータセットのバンプ分布とほぼ同様です。
    ここに画像の説明を挿入します

6、RAI分析

  SA-1B と SAM を使用する場合の潜在的な公平性の問題とバイアスを調査することにより、作業の責任ある AI (RAI) 分析を実施します。私たちは、SA-1B の地理的分布と収益分布、および保護資産全体にわたる SAM の公平性に焦点を当てています。§F では、データセット、データ アノテーション、モデル カードも提供します。

  • 地理的および収益の表現。これらの国の画像は標準的な方法を使用して撮影されたものと推測されます (§C を参照)。図 7 では、SA-1B の国ごとの画像数 (左) と、画像が最も多い 50 か国 (右) を視覚化しています。上位 3 か国は世界のさまざまな地域から来ていることがわかりました。次に、表 1 では、SA-1B、COCO [66]、および Open Images [60] の地理的代表性と収益代表性を比較します。SA-1B は、ヨーロッパ、アジア、オセアニア、中所得国でのイメージ比率が高くなります。アフリカと低所得国はすべてのデータセットで過小評価されています。SA-1B では、アフリカを含むすべての地域が少なくとも 2,800 万枚のマスクを保有しており、これは以前のデータセットのマスク総数の 10 倍であることに注目します。画像あたりのマスクの平均数 (図示せず) は、地域や所得にかかわらずかなり一貫しています (画像あたり 94 ~ 108)。
    ここに画像の説明を挿入します
  • 人口を分割する際の公平性。認識された性別表現、認識された年齢グループ、および認識された肌の色の間の潜在的な公平性の問題が、グループ間の SAM パフォーマンスの違いを測定することによって調査されました。性別表現と年齢には More Inclusive Annotation of People (MIAP) [87] データセットを使用し、肌の色には独自のデータセットを使用します (§C を参照)。私たちの評価では、ランダムにサンプリングされた 1 点と 3 点のシミュレートされた対話型セグメンテーションが使用されます (§D を参照)。表 2 (左上) は、認識された性別のプレゼンテーションの結果を示しています。検出およびセグメンテーションのデータセットでは女性が過小評価されていることが示されている [115] が、SAM はグループ間で同様に機能することが観察されたことに注目します。私たちは表 2 (左下) で知覚年齢の分析を繰り返しましたが、若く知覚されている年齢と年上であると認識されている年齢は大規模なデータセットでは過小評価されていることが判明したことに注目しました [110]。SAM は、(信頼区間が大きいにもかかわらず) 高齢であると考えられる人々の中で最も優れたパフォーマンスを示しました。最後に、表 2 (右) で知覚される肌の色の分析を繰り返しました。大規模なデータセットでは、目に見えて明るい肌を持つ人々が過剰に代表される一方、暗い肌を持つ人々は過小評価されることが示されています [110] 。MIAP には知覚された肌の色の注釈が含まれていないため、1 (最も明るい肌の色調) から 6 (最も暗い肌の色調) までの範囲の知覚されたフィッツパトリック肌タイプ [36] の注釈を含む独自のデータセットを使用しました。平均値はわずかに異なりましたが、グループ間に有意な差は見つかりませんでした。私たちは、調査結果がタスクの性質に由来すると信じており、SAM が大規模システムのコンポーネントとして使用される場合にバイアスが発生する可能性があることを認識しています。最後に、§C では、分析を衣服のセグメンテーションに拡張し、認識された性別表現における偏見の兆候を見つけます。
    ここに画像の説明を挿入します

7. ゼロサンプル移行実験

  ここでは、SAM(Segment Anything Model)のゼロショットマイグレーション実験について紹介します。私たちは 5 つのタスクを検討しましたが、そのうち 4 つは SAM のトレーニングに使用されるプロンプト可能なセグメンテーション タスクとは大きく異なりました。これらの実験は、トレーニング中には見ら​​れなかったデータセットとタスクに対する SAM を評価します (「ゼロショット転送」の使用は、CLIP [82] で使用されたものに従っています)。データセットには、水中画像や自己中心的な画像 (図 8) などの新しい画像分布が含まれている可能性がありますが、私たちの知る限り、SA-1B には存在しません。
ここに画像の説明を挿入します
  実験は、あらゆるキューから効率的なマスクを生成するという、キュー可能なセグメンテーションの中核目標をテストすることから始まりました。この記事では、単一の前景キューは他のより具体的なキューに比べて曖昧になる可能性が高いため、その困難なシナリオに焦点を当てています。低レベル、中レベル、高レベルの画像理解を横断し、この分野の歴史的発展とほぼ並行する一連の実験が紹介されています。(2) すべてをセグメント化する (つまり、オブジェクト提案の生成)、(3) 検出されたオブジェクトをセグメント化する、つまり、インスタンスのセグメント化、(4) 概念実証として、自由形式のテキストからオブジェクトをセグメント化する。これら 4 つのタスクは、SAM によってトレーニングされ、プロンプト プロジェクトを通じて実装されたプロンプト可能なセグメンテーション タスクとは大きく異なります。私たちの実験はアブレーション研究で終わります。
  成し遂げる。特に指定のない限り: (1) SAM は MAE [47] によって事前トレーニングされた ViT-H [33] 画像エンコーダを使用します。 (2) SAM は SA-1B でトレーニングされます。このデータセットにはエンジンからのデータのみが含まれることに注意してください。マスクは自動的に設定されます。最終段階で生成されます。他のすべてのモデルとハイパーパラメーターなどのトレーニングの詳細については、§A を参照してください。

7.1. ゼロサンプルの単一点有効マスク評価

  • タスク。この論文では、単一の前景点からオブジェクトのセグメンテーションを評価します。1 つのポイントが複数のオブジェクトを指す可能性があるため、このタスクは異常です。ほとんどのデータセットのグラウンド トゥルース マスクは、考えられるすべてのマスクを列挙していないため、自動メトリクスの信頼性が低くなる可能性があります。したがって、この文書は、標準的な mIoU メトリクス (つまり、予測マスクと実際のマスク間のすべての IoU の平均) を、アノテーターがマスクの品質を 1 (意味なし) から 10 (ピクセル完全) で評価した人間の研究で補完します。§D を参照してください。1、追加の詳細は§E および§G に記載されています。
  • デフォルトでは、対話型セグメンテーションの標準評価プロトコルに従って、グラウンド トゥルース マスクの「中心」(マスク内の距離変換の最大値)から点をサンプリングします [92]。SAM は複数のマスクを予測できるため、デフォルトではモデル内で最も信頼性の高いマスクのみを評価します。ベースラインはすべて単一マスク方式です。私たちは主に、他の強力なベースライン [67、18] と比較して、ベンチマークで最高のパフォーマンスを発揮する強力な対話型セグメンターである RITM [92] と比較します。
  • データセット。異なる画像分布を持つ、新しくコンパイルされた 23 個のデータセットのセットを使用しました。図 8 は、これらのデータセットをリストし、各データセットの例を示しています (詳細については、付録の表 7 を参照)。mIoU 評価には 23 個のデータセットすべてを使用します。人間の研究では、図 9b にリストされているサブセットを使用します (そのような研究にはリソース要件があるため)。このサブセットには、自動メトリクスに関して SAM が RITM を上回るパフォーマンスと下回るパフォーマンスを示す 2 つのデータセットが含まれています。
  • 結果。まず、23 個のデータセットのフルセットに対して mIoU を使用した自動評価を検討します。図 9a の各データセットの結果を RITM と比較しました。SAM は 23 のデータセットのうち 16 でより高い結果を達成し、47 IoU の高い結果が得られました。この論文では、最も信頼性の高いマスクを選択するのではなく、SAM の 3 つのマスクをグランド トゥルースと比較することによって最も関連性の高いマスクを選択する「オラクル」結果も示しています。これは、自動評価に対する曖昧さの影響を明らかにしています。特に、Oracle で曖昧性の解決を実行する場合、SAM はすべてのデータセットで RITM よりも優れたパフォーマンスを発揮します。
  • 人間を対象とした研究の結果を図 9b に示します。誤差範囲は、平均マスク スコアの 95% 信頼区間です (すべての差は有意です。詳細については、§E を参照してください)。SAM のマスク品質に対するアノテーターの評価は、常に最も強力なベースライン RITM の評価よりも大幅に高くなります。単一の出力マスクを備えた SAM の弱体化バージョンは常に RITM よりスコアが低くなりますが、それでも RITM よりは高くなります。平均 SAM 評価は 7 ~ 9 で、これは定性的評価ガイドラインに相当します。「高スコア (7 ~ 9): オブジェクトは識別可能であり、エラーは小さく、まれです (例: 小さな重要な閉塞された切断されたコンポーネントの欠落、 ...)」 これらの結果は、SAM が単一点から効果的なマスクをセグメント化することを学習したことを示しています。DRAM や IBD などのデータセットの場合、SAM は自動メトリクスではパフォーマンスが低いですが、手動調査では一貫して高いスコアを示していることに注意してください。
    ここに画像の説明を挿入します
      図 9c は、他のベースライン SimpleClick [67] と FocalClick [18] を示していますが、これらのシングルポイント パフォーマンスは RITM や SAM よりも低くなります。ポイントの数が 1 から 9 に増加するにつれて、メソッド間のギャップは減少します。タスクが容易になるにつれて、これは予想されることです。さらに、SAM は、非常に高い IOU システム向けには最適化されていません。最後に、図 9d では、デフォルトの中心点サンプリングをランダムな点サンプリングに置き換えます。SAM とベースラインの間のギャップが拡大していることが観察され、SAM は両方のサンプリング方法で同等の結果を達成できます。

7.2. ゼロサンプルエッジ検出

  • 方法。BSDS500 [72、3] を使用して、古典的な低レベルのエッジ検出タスクで SAM を評価します。自動マスク生成パイプラインの簡易バージョンを使用します。前景点の 16 × 16 の規則的なグリッドで SAM をキューすると、768 個の予測マスク (1 点あたり 3 個) が得られます。NMS は冗長なマスクを削除します。次に、非閾値マスク確率マップのソーベル フィルタリングと、エッジ NMS を含む標準の軽量後処理を使用して、エッジ マップが計算されます (§D.2 を参照)。
    ここに画像の説明を挿入します
  • 結果。代表的なエッジ マップを図 10 に視覚化します (詳細については、図 15 を参照)。定性的には、SAM は、エッジ検出用にトレーニングされていない場合でも、合理的なエッジ マップを生成できます。グラウンド トゥルースと比較して、SAM は、BSDS500 で注釈が付けられていない妥当なエッジを含む、より多くのエッジを予測します。この偏りは表 3 に定量的に反映されています。50% 精度 (R50) での再現率は高く、精度が犠牲になります。SAM は当然ながら、BSDS500 バイアス、つまりどのエッジを抑制するかを学習するための最先端の方法よりも遅れています。ただし、SAM は、HED [108] (これも BSDS500 でトレーニングされた) などの先駆的な深層学習手法と比較して優れたパフォーマンスを発揮し、明らかに時代遅れではあるものの、以前のゼロショット転送手法を大幅に上回っています。
    ここに画像の説明を挿入します

7.3. ゼロサンプル目標の提案

  • 方法。次に、オブジェクト提案生成の中間レベルのタスクで SAM [2, 102] が評価されます。このタスクは、[102、41、84] などの先駆的なシステムに向けた中間ステップとして、物体検出研究において重要な役割を果たしてきました。ターゲットの推奨事項を生成するために、自動マスク生成パイプラインのわずかに変更されたバージョンを実行し、マスクを推奨事項として出力しました (§D.3 を参照)。
  • LVIS v1 で標準平均リコール (AR) メトリックを計算します [44]。LVIS に焦点を当てるのは、カテゴリが多数あるため、難しいテストとなるからです。これを、ViTDet [62] 検出器として実装された強力なベースライン (カスケード マスク R-CNN [48, 11] ViT-H を使用) と比較してください。この「ベースライン」は、ゲーム AR で実証された「提案生成器として偽装された検出器」(DMP) アプローチ [16] に対応しており、非常に厳しい比較となることに注意してください。
    ここに画像の説明を挿入します
  • 結果。表 4 では、予想どおり、ViTDet-H をターゲット提案として使用した検出 (つまり、ゲーム AR 用の DMP 方法 [16]) が全体的に最も優れたパフォーマンスを示したことがわかります。ただし、SAM はいくつかの指標で非常に優れたパフォーマンスを発揮します。特に、中型および大型のオブジェクトだけでなく、まれで一般的なオブジェクトでも ViTDet-H よりも優れたパフォーマンスを発揮します。実際、SAM は小さくて頻繁なオブジェクトに関してのみ ViTDet-H よりパフォーマンスが悪くなりますが、ViTDet-H は SAM とは異なり LVIS でトレーニングされているため、LVIS 固有のアノテーション バイアスを容易に学習できます。曖昧さのないバージョンの SAM (「シングルアウト」) との比較も行われましたが、これはすべての AR メトリクスで SAM よりも大幅にパフォーマンスが悪かったです。

7.4. ゼロサンプルインスタンスのセグメンテーション

  • 方法。より高いレベルのビジョンについて言えば、インスタンス セグメンターのセグメンテーション モジュールとして SAM を使用します。実装は単純です。オブジェクト検出器 (以前に使用した ViTDet) を実行し、その出力ボックスで SAM にプロンプ​​トを出します。これは、SAM をより大規模なシステムでどのように組み合わせることができるかを示しています。
    ここに画像の説明を挿入します
  • 結果。表 5 では、COCO と LVIS に関して SAM と ViTDet によって予測されたマスクを比較しています。マスク AP メトリクスを見ると、両方のデータセットにギャップがあり、SAM はかなり近いですが、明らかに ViTDet に遅れをとっています。出力を視覚化すると、SAM マスクは一般に ViTDet のマスクよりも定性的に優れており、境界がより鮮明であることがわかります (§D.4、図 16 を参照)。この観察結果を調査するために、私たちは追加の人体研究を実施し、アノテーターに ViTDet マスクと SAM マスクを以前に使用されていた 1 から 10 の品質スケールで評価してもらいました。図 11 では、人間の研究において SAM が一貫して ViTDet を上回っていることがわかります。
    ここに画像の説明を挿入します
    COCO では、マスク AP ギャップが大きく、グラウンド トゥルースの品質が比較的低いと仮定すると (人間の研究によって確認されています)、ViTDet は COCO マスクの特定のバイアスについて学習しました。SAM はゼロサンプル手法であるため、これらの (多くの場合望ましくない) バイアスを利用できません。LVIS データセットはより高品質のグラウンド トゥルースを備えていますが、依然として特定の特性 (マスクに穴が含まれておらず、構造的に単純なポリゴンであるなど) とモーダル マスク間の偏差が存在します。繰り返しますが、SAM はこれらのバイアスを学習するように訓練されていませんが、ViTDet はそれらを悪用できます。

7.5、ゼロショットのテキストからマスクへ

  • 方法。最後に、より高いレベルのタスクである自由形式テキストからのオブジェクトのセグメント化について考えてみましょう。この実験は、SAM がテキスト キューを処理する能力の概念実証です。これまでのすべての実験ではまったく同じ SAM を使用しましたが、この SAM のトレーニング プロセスは、テキストを認識できるように変更されましたが、新しいテキスト アノテーションを必要としない方法で行われました。面積が 1002 を超える手動で収集されたマスクごとに、CLIP 画像の埋め込みが抽出されます。次に、トレーニング プロセス中に、抽出された CLIP 画像埋め込みが SAM の最初のインタラクションとして使用されます。ここでの重要な観察は、CLIP の画像埋め込みがテキスト埋め込みと一致するようにトレーニングされるため、画像埋め込みでトレーニングでき、推論にはテキスト埋め込みを使用できるということです。つまり、推論時に、CLIP のテキスト エンコーダを通じてテキストを実行し、結果のテキスト埋め込みをヒントとして SAM に送ります (詳細については、§D.5 を参照)。
    ここに画像の説明を挿入します
  • 結果。図 12 に定性的な結果を示します。SAM は、「車輪」などの単純なテキスト キューや「ビーバーの歯のグリル」などの語句に基づいてオブジェクトをセグメント化できます。SAM がテキストの手がかりだけから正しいオブジェクトを選択できない場合、[31] と同様に、通常は追加のポイントによって予測が修正されます。

7.6. アブレーションの研究

単一の中心点キューイングプロトコルを使用して、一連の 23 データセットに対していくつかのアブレーションを実行しました。個々のポイントがあいまいな場合があり、このあいまいさがグラウンド トゥルースでは表現されない可能性があることを思い出してください。各ポイントにはマスクが 1 つしか含まれていません。SAM はゼロサンプル送信環境で動作するため、SAM のトップレベル マスクとデータ アノテーション ガイドラインによって生成されたマスクの間には体系的な偏差が存在する可能性があります。したがって、グラウンド トゥルースに関して最適なマスク (「オラクル」) を追加で報告します。
ここに画像の説明を挿入します
  図 13 (左) は、データ エンジン ステージに蓄積されたデータでトレーニングされたときの SAM のパフォーマンスをプロットしています。各段階で mIoU が増加することが観察されます。3 つの段階すべてを使用してトレーニングすると、自動マスクの数が手動および半自動マスクを大幅に上回りました。この問題に対処するために、トレーニング中に手動マスクと半自動マスクを 10 倍オーバーサンプリングすると最良の結果が得られることがわかりました。この設定はトレーニングを複雑にします。したがって、自動生成されたマスクのみを使用する 4 番目のセットアップをテストしました。このデータを使用する場合、SAM のパフォーマンスは、すべてのデータを使用する場合よりもわずかに低い (約 0.5 mIoU) だけです。したがって、デフォルトでは、トレーニング設定を簡素化するために自動生成されたマスクのみを使用します。
  図 13 (中央) では、データ量の影響を示しています。完全な SA-1B には 1,100 万枚の画像が含まれており、アブレーションのためにこれらの画像を 1M および 0.1M に均一にサンプリングします。0.1k の画像全体で、すべての設定で mIoU が大幅に減少していることが観察されます。ただし、データセット全体の約 10% に相当する 100 万枚の画像では、データセット全体を使用した場合と同等の結果が観察されます。このデータ メカニズムには依然として約 1 億のマスクが含まれており、多くのユースケースにとって実用的なセットアップとなる可能性があります。
  最後に、図 13 (右) は、ViT-B、ViT-L、および ViT-H 画像エンコーダーの結果を示しています。ViT-H は ViT-B よりも大幅に改善されていますが、ViT-L よりもわずかに優れているだけです。現時点では、画像エンコーダのさらなるスケーリングは効果的ではないようです。

8. ディスカッション

  • ベースモデル。事前トレーニングされたモデルは、機械学習の初期の頃から下流のタスクに適応されてきました [99]。近年、このパラダイムはスケールがますます重視されるにつれてますます重要になってきており、そのようなモデルは最近「ベースモデル」と呼ばれるようになりました。つまり、「大規模なデータでトレーニングされ、広範囲のデータに適応したモデル」です。下流タスク」[8]。この研究はこの定義によく関連していますが、画像セグメンテーションの基礎となるモデルは、重要ではあるがコンピューター ビジョンの分数次数のサブセットを表すため、本質的に限定された範囲の 1 つであることに注意しています。このアプローチの 1 つの側面は、基礎となるモデルにおける自己教師あり学習の役割を強調する [8] とも対比されています。モデルは自己教師あり手法 (MAE [47]) で初期化されますが、その機能の大部分は大規模な教師ありトレーニングから得られます。この例のように、データ エンジンが利用可能なアノテーションを拡張できる場合、教師ありトレーニングが効率的なソリューションを提供します。
  • 組み合わせ性。事前トレーニングされたモデルは、トレーニング中に想像を超えた新しい機能を提供できます。顕著な例は、CLIP [82] を DALL・E [83] などの大規模システムのコンポーネントとして使用する方法です。私たちの目標は、この組み合わせを SAM で直接実装することです。この論文は、広範囲のセグメンテーション キューに対して効率的なマスクを予測することを SAM に要求することで、この目標を達成することを目的としています。その結果、SAM と他のコンポーネントの間に信頼性の高いインターフェイスが作成されます。たとえば、MCC [106] は、SAM を簡単に使用して対象オブジェクトをセグメント化し、単一の RGB-D 画像から 3D 再構成するために目に見えないオブジェクトへの強力な一般化を実現できます。別の例では、ウェアラブル デバイスによって検出された注視点によって SAM を促すことができ、新しいアプリケーションが可能になります。SAM は自己中心的な画像などの新しい領域に一般化できるため、このようなシステムは追加のトレーニングなしで機能します。
  • 制限。SAM は全体的には良好なパフォーマンスを示していますが、完璧ではありません。それは微細な構造を見逃す可能性があり、時には接続されていない小さなコンポーネントのような錯覚を生成し、より計算量の多い「ズームイン」方法 (例: [18]) のような鮮明な境界を生成しません。一般に、[67] など、多くのポイントが提供される場合、専用のインタラクティブ セグメンテーション手法が SAM よりも優れたパフォーマンスを発揮すると予想されます。これらの方法とは異なり、SAM は、高 IoU の対話型セグメンテーションではなく、汎用性と幅広い用途を考慮して設計されています。さらに、SAM はプロンプト情報をリアルタイムで処理できますが、大規模な画像エンコーダを使用する場合、SAM の全体的なパフォーマンスはリアルタイムではありません。テキストをマスクに変換するタスクに対する私たちの試みは探索的なものであり、完全に堅牢ではありませんが、もっと努力すれば改善できると信じています。SAM は多くのタスクを実行できますが、セマンティックおよびパノラマ セグメンテーションを実現するための単純なキューを設計する方法は明確ではありません。最後に、[7] のようなドメイン固有のツールがいくつかありますが、これらはそれぞれのドメインで SAM よりも優れたパフォーマンスを発揮することが期待されています。
  • 結論は。Segment Anything プロジェクトは、画像のセグメンテーションを基本モデルの時代に進めることを試みています。この論文の主な貢献は、この飛躍を可能にする新しいタスク (プロンプタブル セグメンテーション)、モデル (SAM)、およびデータセット (SA-1B) です。SAM が基本モデルの地位に達するかどうかは、コミュニティでどのように使用されるかはまだわかりませんが、いずれにしても、私たちはこの取り組みの見通しを楽しみにしています。また、1B を超えるマスクのリリースと私たちの即時セグメンテーション モデルは、進む道、道。

おすすめ

転載: blog.csdn.net/qq_33319476/article/details/130485862