下のカードをクリックして「CVer」公式アカウントをフォローしてください
AI/CV 重量物乾物、初めて納品
Zhang Hao の貢献は
次から転載されています: Qubit (QbitAI)
ICCV の論文リストは、この香港科技大学の画像セグメンテーション モデルを含め、最近「表彰」されました。
低いトレーニングコストでより良い結果を達成でき、未知のオブジェクトに遭遇した場合でも簡単に解決できます。
さらに、著者によると、これはボックスプロンプトに基づくセグメンテーション機能を備えた最初のAIモデルでもあり、 MetaのSAMよりも早く実装されています。
オープンボキャブラリーのセグメンテーションと検出のためのシンプルなフレームワーク
コード (オープンソース):
https://github.com/IDEA-Research/OpenSeeD
論文: https://arxiv.org/abs/2303.08131
この論文のプレプリントの初版の公開日は今年 3 月 14 日 (北京時間 15 日) で、 SAM より20 日以上早いです。
では、この画像セグメンテーション モデルの効果は何でしょうか?また、それはどのように行われるのでしょうか?
(以下の内容は寄稿者から提供されたものです)
以下の図は、OpenSeeD と呼ばれるこのモデルの出力を示しています。
従来のインスタンス、セマンティック、およびパノラマ セグメンテーションを行うだけでなく、これまでに見たことのないオブジェクトをセグメント化することもできます。また、検出フレームに基づいてこれまでに見たことのないオブジェクトをセグメント化し、正しいカテゴリを与えることもできます。
動作原理
OpenSeeD は、オープンボキャブラリーを使用した画像セグメンテーションのためのシンプルで効果的なフレームワークであり、オープンボキャブラリーに拡張された MaskDINO のバージョンとして理解することもできます。
以下の図に示すように、これまでに多数の画像とテキストのペアを組み合わせてオープンボキャブラリー検出またはセグメンテーションを実現する多くの研究が行われてきましたが、OpenSeeD は、共同トレーニング用に物体検出データとパノラマセグメンテーションデータを組み合わせた最初の研究です。 、そしてそれが実現可能で効果的であることが証明され、この分野のギャップを埋めます。
さらに、セマンティクスの豊かさを拡張するために、研究チームはO365(365カテゴリ)の検出データとCOCOセグメンテーション(133カテゴリ)を導入して一緒にトレーニングしました(O365の事前トレーニングを使用するMaskDINOとは異なります)。
異なるデータセットが使用されたため、研究チームは、2 つのタスクと語彙に互換性があるように、2 つのデータとタスクの違いを解決する必要がありました。
全体的な OpenSeeD の動作原理は次の図に示されており、2 つの違いもこの方法で解決されます。
図の左半分で、一般的なシーンのセグメント化が完了します。
基本モデルのタスクの違い(O365には前景のみがあるのに対し、COCOには前景と背景がある)を解決するために、研究チームは前景と背景の予測を分離しました。
右半分は条件付き予測部分で、GT ボックスを通じて画像マスクを予測できます。
このパートでは、チームは O365 にタグを付けることでデータの不一致の問題を解決します。
最終的に、チームの手法は、複数のオープンボキャブラリータスクにおいて、現在最良の手法である x-decoder と同等かそれ以上の結果を達成しました。4M の手動でラベル付けされた画像記述データを使用する x-decoder と比較して、OpenSeeD は 0.57M の検出データのみを使用します。
さらに、研究チームは、わずか 5,000 個の O365 データでも、オープンボキャブラリータスクで同様の効果が達成できることも発見しました。
これは、OpenSeeD に必要なのは豊富なビジュアル コンセプト (カテゴリの数) であり、必ずしも大量のデータ (個人の数) ではないことを示しています。
低コストで高い効果
OpenSeeD は、強力なオープンセット セグメンテーション手法として、これまでに見たことのない多数のオブジェクトをセグメント化することができ、さまざまなオープンセットおよびクローズドセットの指標で最高の結果を達成しています。
さらに、O365 検出タスクを導入してオープン セットのセマンティック機能を向上させることにより、OpenSeeD のトレーニング コストも他のオープン セット手法よりも低くなります。
次の表は、OpenSeeD のテスト結果を示しています。
研究チームは、検出データが少ないにもかかわらず、複数のゼロトレーニング サンプル セグメンテーション タスク、特に SeginW タスク (多くのなじみのないカテゴリ) において、既存の最良の手法 X-Decoder、GLIPv2 などに到達、またはそれを超えていることを発見しました。 X -Decoder をはるかに超える効果を達成しました。
さらに、チームが他のデータセットに合わせて微調整したところ、OpenSeeD は参照標準をはるかに超えるパフォーマンスを示しました。
OpenSeeD は、COCO および ADE20K のパノプティック セグメンテーション、および ADE20K および Cityscapes のインスタンス セグメンテーションにおいても、既存の最高のモデルと同等のパフォーマンスを発揮します。
ICCV/CVPR 2023 ペーパーとコードのダウンロード
バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。
后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像分割和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理するのは簡単ではありません、いいねして見てください