下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください
AI / CVの重い乾物、できるだけ早く配達
この論文では、香港大学とByteDanceの研究者が、参照ビデオオブジェクトのセグメンテーションのための新しいTransformerベースのフレームワークであるReferFormerを提案しています。言語の説明をクエリ条件と見なし、ビデオ内のターゲットオブジェクトを直接検索します。さらに、ターゲットオブジェクトの追跡は、後処理なしでインスタンスシーケンスの全体的な出力を通じて自然に完了します。ReferFormerは、4つの参照ビデオオブジェクトセグメンテーションデータセットすべてで最先端のパフォーマンスを実現します。
紙:https://arxiv.org/abs/2201.00487
コード:https://github.com/wjn922/ReferFormer
前書き
参照ビデオオブジェクトセグメンテーション(RVOS)は、ビデオ内のテキストによって参照される参照オブジェクトのインスタンスセグメンテーションを必要とする、新しく挑戦的なマルチモーダルタスクです。
現在広く研究されている参照画像セグメンテーション(RIS)タスクでは、テキストの説明は通常、ターゲットの外観の特徴または空間的関係に基づいていますが、RVOSタスクは、ターゲットによって実行されるアクションを説明できます。従来のビデオオブジェクトセグメンテーション(VOS)タスクと比較して、RVOSタスクは、予測段階で特定のセグメンテーションターゲットの真の値を持たないため、ターゲットを正確かつ細かくセグメント化することが難しくなります。
既存のRVOSメソッドは、セグメンテーションの目的の一貫性を確保するために、複雑なマルチステージフレームワークに依存することがよくあります。上記の問題を解決するために、香港大学とByteDanceの研究者は、言語記述をクエリ条件として使用し、ビデオ。ターゲットの追跡は、後処理なしで異なるフレームの対応するクエリを接続することで実現できます。このモデルは、4つのRVOSデータセット(Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences、JHMDB-Sentences)で最先端のパフォーマンスを実現します。
メソッドのハイライト:
-後処理なしで、シンプルで統一されたTransformerベースのエンドツーエンドRVOSフレームワークを提案しました。
-クエリの制約として言語の説明を使用して、少数のクエリでタスクを完了できるようにします。
-4つのRVOSタスクデータセットすべてで最先端のパフォーマンスを達成しました。
方法
図1ネットワークの全体的な構造
ネットワークは主に、バックボーン、トランスフォーマー、クロスモーダルFPN、インスタンスセグメンテーション生成の4つの部分で構成されています。
バックボーン。ネットワークは、最初にビジュアルエンコーダーを使用してビデオから各フレームの特徴を抽出し、テキストエンコーダーを使用してテキストで記述された言語特徴を取得します。特徴が平均的にプールされた後に取得されるベクトルは文の特徴です。
Transformer。Transformerエンコーダーは、ビデオフレームのマルチスケール機能をさらにモデル化するために使用されます。デコーダー部分では、N個の学習可能な機能がクエリとして定義され、すべてのフレームで共有されます。同時に、上記の文の特徴はN回複製され、クエリと文の特徴はデコーダーの入力として共同で使用されます。このように、すべてのクエリは言語のガイダンスの下でターゲットオブジェクトにのみ焦点を合わせるため、このペーパーではこのクエリを「条件付きクエリ(条件付きクエリ)」と呼びます。この設計のおかげで、モデルは少数のクエリ(デフォルトでは5)で良好な結果を得ることができます。最後に、デコーダーでのクエリと視覚的機能の相互作用により、ターゲット情報を含むN個の表現が各フレームで取得され、ビデオ全体で合計Nq個の表現があります。
クロスモーダルFPN。この部分では、視覚的特徴とテキスト特徴が相互注意の形でマルチスケールできめ細かい相互作用を実行し、より良いセグメンテーション結果を達成できます。このプロセスでは、FPNは意味的に豊富な高解像度の機能マップを生成し、後続のセグメンテーションモジュールに送信されます。
インスタンスセグメンテーション生成部分。上記の各フレームで取得されたN表現について、最初に、対応する2項分類確率、バウンディングボックス、および動的畳み込みカーネルパラメータを、それぞれクラスヘッド、ボックスヘッド、およびマスクヘッドを介して生成します。バウンディングボックスが相対座標特徴としてFPNの出力特徴に追加され、各クエリに対応する畳み込み特徴マップが取得されます。ターゲットマスクの生成は、動的畳み込みによって取得されます。
トレーニングと予測。各フレームの対応する位置でのクエリは同じインスタンス(図では同じ形状で表されます)を追跡し、対応するクエリを接続することで、同じインスタンスに属するシーケンスを取得できるため、各ターゲットは自然に処理することができます。後処理なしの種。トレーニングと予測の段階では、インスタンスシーケンスは、監視と出力のために全体として見なされます。
トレーニングフェーズでは、ビデオにターゲットオブジェクトが1つしかないため、最小コストマッチングを使用して、正のサンプルを割り当てます。損失関数には、二項分類損失、バウンディングボックス損失、およびマスク損失が含まれます。
予測段階では、入力はビデオ全体です。まず、すべてのフレームで各インスタンスシーケンスの平均スコアを計算し、スコアが最も高いインスタンスシーケンスを選択します。そのインデックスはσであり、対応するマスクシーケンスを出力します。
デモ
以下は、いくつかの困難なシーンでのモデルのセグメンテーション効果を示しています。
-参照-DAVIS17
閉塞する
態度の変化
-Ref-Youtube-VOS
ファインセグメンテーション
速い動き
図2視覚化表示
パフォーマンス
このホワイトペーパーでは、さまざまなビジュアルエンコーダを使用して広範な実験を行い、現在の4つのRVOSすべてで現在の最先端のパフォーマンスを実現しています。その中で、Ref-DAVIS17とJHMDB-Sentencesの評価では、それぞれRef-Youtube-VOSとA2D-Sentencesでトレーニングされたモデルが使用され、メソッドの一般化パフォーマンスが証明されています。
-Ref-Youtube-VOS&Ref-DAVIS17
図3Ref-Youtue-VOSデータセットとRef-DAVIS17データセットのパフォーマンス比較
-A2D-文とJHMDB-文
図4A2D-文データセットのパフォーマンスの比較
図5.JHMDB-Sentencesデータセットのパフォーマンス比較
結論は
この論文では、シンプルで統一された参照ビデオターゲットセグメンテーションフレームワークを提案します。以前の複雑で多段階のパイプラインとは異なり、モデルがターゲットオブジェクトに正確に焦点を合わせることができるように、言語記述をクエリとして使用するという概念を提案します。同時に、インスタンスシーケンスを通じて自然なシーケンスと一致し、ターゲットの追跡を完了し、エンドツーエンドの出力を実現します。
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看