下流タスクへの SAM 適応の探索: SAM アダプター

この記事は、Huawei クラウド コミュニティ「SAM 適応ダウンストリーム タスクの探索: SAM アダプター」、著者: ヒントから共有されたものです。

最近の大規模モデルの出現により、AI 研究に大きな発展がもたらされており、META の作品である Segment Anything (SAM) は、画像セグメンテーション タスク用に設計された基本的な大規模モデルの 1 つです。SAM はインタラクティブな大規模画像セグメンテーション モデルであり、点、ボックス、テキストの説明などの大まかなプロンプトを提供することで、画像内の指定されたターゲットをセグメンテーションすることができ、そのデモの効果は驚くべきものでした。ただし、一部の特殊なシーンの写真では、影の検出やカモフラージュ対象の検出などの学習データの違いにより、それほど驚くべき効果が得られません。ただし、SAM の強力なセグメンテーション機能は、下流のタスクをより適切に提供するための微調整モデルの基礎として引き続き使用できます。

この論文で紹介されている方法である SAM アダプター [2] は、SAM ネットワークを微調整することなく、シンプルで効果的なアダプターを通じてドメイン固有の情報や視覚的な手がかりをセグメンテーション ネットワークに注入できるアダプター モジュールを設計します。これにより、SAM ネットワークのパフォーマンスが向上します。特定のタスクに対する SAM。この論文では、ISTD の影検出データセット、COD10K、CHAMELEON、CAMO の偽装物体検出データセット、kvasir-SEG ポリープ セグメンテーション (医療画像セグメンテーション) データセットなど、複数のタスクとデータセットに対して広範な実験を実施しています。実験結果は、SAM アダプターが SAM のパフォーマンスを大幅に向上させるだけでなく、これらのタスクに関して最先端の性能を達成することを示しています。

上の図に示すように、モデルは SAM のイメージ エンコーダーとマスク デコーダーを使用します。イメージ エンコーダーはパラメーターをフリーズし、デコーダーは勾配リターンに参加します。このようにして、SAM の事前トレーニングされたセグメンテーション機能を効果的に使用することができ、Decoder は下流のタスクに適応するようにパラメーターを更新します。さらに、著者は、特別なタスクの知識を導入し、モデルの微調整を支援するために使用されるアダプター モジュールを紹介しました。アダプタのネットワーク構造は、MLP 層の 2 層のみで構成されており、その入力知識はさまざまであり、この論文のタスクでは、その入力はテクスチャ情報または周波数情報になります。さまざまな情報は次の重み付けでバランスがとれています。

著者は複数のデータセットに対して実験を行っている. 以下の実験結果から, この手法の性能は下流タスクのSOTA効果に達している. 元のSAMと比較して, 改善効果は顕著である. 著者はアダプタモジュールの有効性も証明している。

[1]キリロフ A、ミントゥン E、ラヴィ N、他。何でもセグメント化します[J]。arXiv プレプリント arXiv:2304.02643、

[2]Chen T、Zhu L、Ding C、他。SAM は何かのセグメント化に失敗しますか?--SAM アダプター: パフォーマンスが低いシーンでの SAM の適応: カモフラージュ、シャドウなど[J]。arXiv プレプリント arXiv:2304.09148、2023。

クリックしてフォローして、Huawei Cloudの最新テクノロジーについて初めて学びましょう~

産業情報技術省: 未登録のアプリにネットワーク アクセス サービスを提供しない Go 1.21 が正式リリース Linus がコードを個人的にレビュー、Bcachefs ファイル システム ドライバーに関する「内紛」を鎮めることを期待 ByteDance が パブリック DNS サービスを開始 7-Zip 公式Web サイトは Baidu によって悪意のある Web サイトとして識別されました Google、AI コード エディターをリリース: Project IDX 清華レポート: Wenxin Yiyan が中国で確固たる地位を確立、ChatGPT Vim プロジェクトを超え、将来の 瞑想ソフトウェアが発売される予定、 ChatGPT は「中国初の Linux」によって設立されました「人」の1日あたりのコストは約70万米ドル、OpenAIは破産寸前になる可能性がある
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4526289/blog/10095937