ICCV 2023 | 複数の記録を更新! 武漢大学とKuaishouがDVISを提案:ビデオインスタンスセグメンテーションフレームワークの分離

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —> [画像分割と論文投稿] Exchange Group

著者: zt1999 (出典: Zhihu) | 編集者: CVer

https://zhuanlan.zhihu.com/p/645334685

より詳細な比較結果は次のとおりです。

f5f871f91d0ca974ef1c86fba18b362b.png

チーム ICCV2023 のドラフトでビデオ インスタンス セグメンテーション作業 DVIS を PR します。DVIS は、OVIS、YouTube-VIS、VIPSeg などのデータ セットで SOTA パフォーマンスを達成しています。DVIS は 2 月以来 OVIS データセットを支配しており、CVPR 2023 の第 2 回ピクセルレベルのビデオ理解 in the Wild チャレンジ (ビデオ パノプティック セグメンテーション トラック) で優勝しました。

DVIS: 分離されたビデオ インスタンス セグメンテーション フレームワーク

論文:https://arxiv.org/pdf/2306.03413

コード:https://github.com/zhang-tao-whu/DVIS

主な特徴

  1. DVIS は一般的なビデオ セグメンテーションを実現でき、ビデオ インスタンス セグメンテーション (VIS)、ビデオ セマンティック セグメンテーション (VSS)、およびビデオ パノラマ セグメンテーション (VPS) という 3 つの主要なタスクを処理できます。

  2. DVIS はオンライン モードとオフライン モードの両方で動作できます。

  3. 分離された設計により、DVIS トレーニングに必要なコンピューティング リソースが少なくなります。

  4. DVIS は、複数の VIS および VPS データセットで SOTA パフォーマンスを達成しました。

結果を示す:

4536988aa22fe2970646ba2fd8608e05.png

タスクの紹介

ビデオ インスタンス セグメンテーション (ビデオ インスタンス セグメンテーション、VIS) は、イメージ インスタンス セグメンテーション タスクの拡張です。ビデオ内のすべてのインスタンスを同時にセグメント化、検出、追跡することを目的としています。イメージ インスタンス セグメンテーションよりも難しい基本タスクです。自動運転においては、画像編集などの下流の作業が重要な役割を果たします。ビデオ セマンティック セグメンテーション (VSS) も画像セマンティック セグメンテーションから拡張されたもので、ビデオのすべてのセマンティック クラスのセグメンテーションと時間次元でのタイミング安定性の維持が必要です。ビデオ パノプティック セグメンテーション (ビデオ パノプティック セグメンテーション、VPS) は、ビデオ インスタンス セグメンテーションとビデオ セマンティック セグメンテーションの組み合わせと見なすことができ、ビデオ内の「物」と「もの」オブジェクトのセグメンテーションと追跡が必要です。

研究の背景と動機

近年、CV のさまざまな分野で Transformer [1] が広く使用されています。DETR[2] は、Transformer に基づいた古典的な作品の 1 つであり、画像ターゲットの検出と画像インスタンスのセグメンテーションの分野で強い可能性を示しています。ROIベースのインスタンス表現方法と比較して、DETRが採用するクエリベースのインスタンス表現方法は、より強力な表現能力と柔軟性を示します。画像ターゲット検出の分野の進歩に触発され、VisTR は Transformer を初めて VIS 分野に適用し、大幅なパフォーマンスの向上を示しました。その後、VISの分野ではTransformerをベースとした方式が主流となりました。

現在、ビデオセグメンテーションの分野の方法はオンライン方法とオフライン方法に分類できます。オンライン手法は、現在のフレームの結果を予測する際に、現在のフレームと過去のフレームを入力として使用し、自動運転におけるリアルタイム認識など、リアルタイム処理を必要とする要求の厳しいシナリオで主に使用されます。オフライン方式は、現在のフレームの結果を予測するときにビデオ内の任意のフレームを入力として使用でき、主にビデオ編集などのオフライン処理が必要なシナリオで使用されます。

既存の SOTA オンライン手法 (MinVIS[3]、IDOL[4] など) は、最初に画像セグメンテーションを実行し、次にフレームごとにインスタンスを関連付けるという技術的ルートに従います。この技術的手法は、他のフレームの情報に基づいて現在のフレームの分割結果を最適化するものではないため、ビデオ情報の有効活用に欠けます。

SOTA の既存のオフライン方式 (SeqFormer[5]、Mask2Former-VIS[6]、VITA[7]、IFC[8] など) は、ビデオ セグメンテーション タスクをエンドツーエンドで処理するために密結合ネットワークを採用しています。この技術的ルートは理論的にはビデオ情報をより効果的に利用できますが、長いビデオや複雑なシーンではそのパフォーマンスは満足のいくものではありません。次のビデオに示されているように、ビデオ内で多数の同様のターゲットが遮られたり、互いに置き換えられたりすると、Mask2Former-VIS のターゲット追跡結果が混乱し、セグメンテーションの精度にも影響します。

448528b8090a1bcac98b26be981ddea3.png

オフライン方法はオンライン方法よりも多くの情報を使用できるため、理論的にはパフォーマンスが向上するはずです。しかし、これは事実ではなく、複雑なシナリオでは、既存のオフライン方式のパフォーマンスはオンライン方式のパフォーマンスよりも大幅に低くなります。これは、既存のオフライン メソッドにおけるインスタンス表現の設定が原因であると考えられます。既存のオフライン手法では、単一の学習可能なクエリを使用してビデオ内のインスタンスを表現し、位置とサイズの事前分布として表示できます。ただし、実際のシーンでは、インスタンスの外観と空間的位置は大きく異なる可能性があるため、位置とサイズの事前分布のみによってすべてのフレームからインスタンスの正確な特徴を検出することは困難です。上のビデオ デモに示されているように、クエリ No. 3 (赤いマスク カバレッジ) によって学習された以前の位置情報はビデオの右側にありますが、ビデオの前の部分でマークされた象は左側に移動しています。ビデオの最後にあるビデオ。

では、ビデオ情報を最大限に活用して、オフライン方式の理論上の可能性を発揮するにはどうすればよいでしょうか? 私たちは DVIS でこの質問に答えようとしました。ビデオ全体でインスタンスの表現を直接モデル化することは難しいため、最初に 1 つのフレームでインスタンスをモデル化し、次にフレームごとにインスタンスを関連付けて、すべてのフレームで同じインスタンスの表現を取得することは可能ですか。最後にインスタンス使用のタイミング情報を追加します。間違いなく、フレームごとの相関付けは、すべてのビデオ フレームにわたって同じインスタンスを直接相関付けるよりもはるかに簡単です。インスタンスの機能が時間的に適切に調整されている場合、これらの機能を効果的に活用することも簡単です。

現時点では、DVIS のアーキテクチャが出現する準備が整っています。VIS タスクを 3 つのサブステップに分解します: 画像のセグメンテーション、オブジェクトの関連付け、およびタイミングのリファインメントです。これに対応して、セグメンター、トラッカー、およびリファイナーの 3 つのネットワーク モジュールを設計します。これら 3 つのサブステップを処理します。画像セグメンテーションは、単一フレーム内のターゲットをセグメント化し、ターゲットの表現を取得することです。オブジェクトの関連付けでは、隣接するフレームのターゲット表現を関連付け、リファイナーに適切に調整された初期値を提供します。タイミング改良とは、位置合わせされたオブジェクトのタイミング情報に基づいて、オブジェクトのセグメンテーション結果と追跡結果を最適化することです。

手法の紹介

DVIS アーキテクチャが決定したら、画像セグメンテーション、オブジェクト関連付け、およびタイミング調整の 3 つのサブステップに対して、合理的なセグメンター、トラッカー、およびリファイナー ネットワークを設計する必要があります。画像セグメンテーションのサブステップでは、SOTA 画像一般セグメンテーション ネットワーク Mask2Former をセグメンタとして使用し、オブジェクトの表現を抽出します。オブジェクト関連付けのサブステップでは、参照ノイズ除去/再構成タスクとして追跡をモデル化し、設計します。堅牢なターゲット関連付けを実行するための Referring Tracker、タイミング調整サブステップでは、オブジェクトのタイミング情報を効果的に使用するために、1D 畳み込みとセルフ アテンションに基づいた Temporal Refiner を実装しました。

3679bdbd4f25af76abd84601e39004c7.jpeg

1. 参照トラッカー

1bf07e3b8925bc087be632eb29993951.jpeg

DVIS は、隣接するフレーム オブジェクトの関連タスクを、前のフレームのオブジェクト クエリに基づいて現在のフレームに対応するオブジェクト クエリを再構築する、つまり、前のフレームのオブジェクトのクエリを参照クエリとして指定して出力するとしてモデル化します。セグメンタからの現在のフレームのオブジェクト クエリ。途中で情報を集約し、最後に現在のフレーム内の参照クエリの対応するインスタンスのマスクとカテゴリを出力します。Referring Tracker は、Referring Cross Attendant を通じて上記のプロセスを学習します。参照クロス アテンションは、参照クエリを最大限に活用して情報の集約をガイドし、参照クエリと現在の情報の混合をブロックします。これは、標準のクロス アテンションをわずかに変更することで得られます。

d39fe58ad8e48e9d5ced626fc9b0c030.png

2. 時間的リファイナー

eac0bf101e5b7b4e1305697e5fae04f0.jpeg

Referring Tracker が基本的に時間次元で調整されたターゲット クエリを出力した後は、標準操作 (1D 畳み込みやセルフ アテンションなど) を使用してタイミング機能を効果的に利用するのが簡単です。私たちが設計した Temporal Refiner も非常にシンプルで、1D 畳み込みとセルフ アテンションを使用してタイミング機能を集約します。Temporal Refiner は、オブジェクトの時間特性に基づいてセグメンテーション結果と追跡結果を最適化します。

DVIS の設計は非常に柔軟であることに注意してください。Referring Tracker をクエリベースの画像スプリッターに重ね合わせて、オンライン ビデオ セグメンテーションを実現できます。Temporal Refiner をオンライン ビデオ スプリッターに重ね合わせて、より強力なセグメンテーション パフォーマンスを実現することもできます。

実験結果

OVIS データセット上で Referring Tracker と Temporal Refiner の役割に関するアブレーション実験を実施しました。トラッカーの主な役割は、特に中程度のオクルージョンと重度のオクルージョンを持つオブジェクトに対して、より堅牢なターゲットの関連付けを実現することです (以下の表に示すように、5.2 AP および 4.3 AP のパフォーマンス向上をもたらします)。Refiner の主な機能は、タイミング情報を最大限に活用することです。結果は、タイミング情報の効果的な使用により、軽度、中度、および重度にオクルージョンされたオブジェクトに対する Temporal Refiner のパフォーマンスが大幅に向上したことを示しています (図を参照)以下の表では、軽度、中程度の高、および重度に遮蔽されたターゲットの場合、それぞれ 2.4 AP、1.8 AP、および 5.1 AP のパフォーマンス向上が得られます。

300e4ca88d2a44d70019e30502027df1.jpeg

さらに、Referring Tracker と Temporal Refiner はオブジェクト クエリのみを処理するため、計算コストは​​非常に小さく、総計算量は Segmenter の 5% 未満です (次の表を参照)。

b71a89b218b1095f118bf5bfa5cda0af.jpeg

DVIS は、OVIS、YouTube-VIS (2019、2021)、VIPSeg などのデータセットで SOTA を達成しました。

データセット OVIS YTVIS19 YTVIS21 VIPセグ
SOTA以前 45.4 AP
(GenVIS、CVPR2023)
64.3 AP
(IDOL、ECCV2022)
59.6 AP
(GenVIS、CVPR2023)
48.0 VPQ
(TarVIS、CVPR2023)
49.9AP 64.9AP 60.1AP 57.6VPQ
増加 +4.5 +0.6 +0.5 +9.4
02272dd1ee7e5ff3f8e0810317141ce0.jpeg ee58adce31808ed4696199307e947a9e.jpeg d2aa1fd94d8e5acaa265672b5e5c5296.jpeg

結論は

このペーパーでは、VIS タスクを 3 つのサブタスク (セグメンテーション、トラッキング、リファインメント) に分離するフレームワークである DVIS を提案します。私たちの貢献は 3 つあります。1) VIS タスクにデカップリング戦略を導入し、DVIS フレームワークを提案します。2) 参照ノイズ除去としてフレーム間の相関をモデル化することで追跡の堅牢性を強化する Referring Tracker を提案します。3) を提案します。 Temporal Refiner は、ビデオ全体の情報を使用してセグメンテーションの結果を調整し、この点で以前の作業の不足を補います。結果は、DVIS がすべての VIS データセットで SOTA パフォーマンスを達成していることを示しています。

DVIS の設計は、VIS 分野における既存の手法の不足に対する反省から来ていますが、DVIS の設計はビデオ インスタンス セグメンテーションの分野に限定されず、変更することなく VIS、VPS、および VSS 上で SOTA パフォーマンスを実現できます。これは、DVIS の多用途性と強力な可能性を示していることを証明しています。私たちは、DVIS が強力かつ基本的なベンチマークとして機能し、私たちの解きほぐされた洞察がオンラインおよびオフライン VIS 分野における将来の研究にインスピレーションを与えることを願っています。

参考文献

[1] 必要なのは注意だけです。NeurIPS2017

[2] トランスフォーマーを使用したエンドツーエンドの物体検出。ECCV2020

[3] MinVIS: ビデオベースのトレーニングを行わない最小限のビデオ インスタンス セグメンテーション フレームワーク。NeurIPS2022

[4] ビデオ インスタンス セグメンテーションのオンライン モデルの擁護.ECCV 2022

[5] SeqFormer: ビデオ インスタンス セグメンテーションのイライラするほど単純なモデル。ECCV2022

[6] ビデオ インスタンス セグメンテーション用の Mask2Former。

[7] オブジェクト トークン関連付けによるビデオ インスタンスのセグメンテーション。NeurIPS2022

[8] フレーム間通信トランスフォーマーを使用したビデオ インスタンスのセグメント化。NeurIPS2021

[9] ビデオ インスタンス セグメンテーションのための一般化されたフレームワーク。CVPR2023。

[10] Tarvis: ターゲットベースのビデオ セグメンテーションのための統合アプローチ。CVPR2023。

 
  

クリックして入力 —> [画像分割と論文投稿] Exchange Group

ICCV/CVPR 2023 ペーパーとコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像分割和论文投稿交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者论文投稿 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てくださいcb264509381a98ab9cfa682db3a1b427.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/132255926