CVPR 2022 |ビデオトランスフォーマーの自己監視型事前トレーニングの新しいパラダイム!復旦大学とマイクロソフトはBEVTを提案します:ビデオ認識のための新しいSOTA ...

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

転載元:Heart of the Machine

復旦大学とMicrosoftCloud+ AIの研究者は、ビデオ表現学習を空間情報表現学習と時間的動的情報表現学習に分離し、最初のビデオTransformerBERT事前トレーニング方法BEVTを提案しました。この研究はCVPR2022で承認されました。

自然言語処理の分野では、マスク予測を使用したBERTの事前トレーニングにより、Transformerはさまざまなタスクで大きな成功を収めています。最近、Transformerは画像認識、オブジェクト検出、セマンティックセグメンテーションなどの多くのコンピュータービジョンタスクで大きな進歩を遂げたため、研究者はマスクされた画像ブロックの個別の視覚トークンを予測することにより、画像フィールドにマスク予測の事前トレーニングを導入しようとしました。または画像表現学習用のピクセル値。ただし、ビデオトランスフォーマーのBERT事前トレーニング方法を調査した研究はほとんどありません。

静止画像とは異なり、空間事前情報に加えて、動画には動きや物体間の相互作用などの豊富な動的情報が含まれているため、画像表現学習と比較して、ビデオ表現学習はより複雑で困難です。既存のビデオトランスフォーマーは、大規模な静止画像データ(ImageNetなど)の事前トレーニング済みの重みに依存することが多く、ビデオデータセットの自己監視方式による時間的ダイナミクスの学習を考慮していません。ダウンストリームのビデオ理解タスクで優れたパフォーマンスを実現するには、VideoTransformerは空間的な事前情報と時間的な動的情報の両方を学習する必要があります。

上記の観点に基づいて、復旦大学とMicrosoft Cloud + AIの研究者は、ビデオ表現学習を空間情報表現学習と時間動的情報表現学習に分離し、最初のビデオTransformerBERT事前トレーニング方法BEVTを提案しました。

BEVTは、画像経路とビデオ経路で構成される双方向の共同自己監視事前トレーニングフレームワークです。画像経路は、マスクされた画像パッチの個別の視覚トークンを予測することによって空間モデリングを学習し、ビデオ経路は、マスクされた3Dビデオチャネルの個別の視覚トークンを予測することによって時間モデリングを学習し、双方向の共同予測は、モデルパラメータの共有を通じて実現されます。両方の機能を同時に効率的に学習するためのビデオトランスフォーマーモデル。ImageNet-1KおよびKinetics-400での画像とビデオの共同自己監視事前トレーニングの後、VideoSwin-Baseバックボーンを使用するBEVTは、ダウンストリームタスクを理解するさまざまなビデオに移行するときに、完全に監視された事前トレーニングと対照的な学習よりも優れたパフォーマンスを実現します。事前トレーニングとシングルストリームの事前トレーニングの結果。Something-Something-v2とDiving48でそれぞれ71.4%と87.2%のTop-1精度を達成し、多くの最先端のビデオTransformerモデルを上回っています。

2ce627c8225ea560f030a0c7fe130ffd.png

BEVT:ビデオトランスフォーマーのBERT事前トレーニング

  • 紙のアドレス:https://arxiv.org/abs/2112.01529

  • ソースコード:https://github.com/xyzforever/BEVT

メソッドの紹介

ビデオ理解タスクの場合、ビデオごとに大きな違いがあり、ビデオごとにカテゴリ予測に依存する重要な情報(つまり、空間的または時間的手がかり)は大幅に異なります。たとえば、Kineticsなどのデータセットのアクションのほとんどは、予測を完了するために空間的な知識のみを必要とする「リップスティックの適用」のカテゴリに属しているため、2次元の特徴を使用すると、比較的静的なKineticsデータセットのパフォーマンスを向上させることができます。 ;およびSomething-SomethingやDiving48などのデータセットの場合、時間的ダイナミクス情報がより重要になります(たとえば、複数のきめ細かいダイビングアクションを区別する)。

BEVTの目標は、自己監視方式を通じて比較的静的なビデオと動的なビデオの両方に効果的なビデオ表現を学習し、さまざまなビデオデータセットに転送したときに優れたパフォーマンスを実現することです。これは、ビデオトランスフォーマーが空間情報と時間的動的情報の適切な表現を同時に学習する必要があることを意味します。

b245d46f482d6382924db130ef84715a.png

BEVTの概要。

さらに、画像の事前トレーニングと比較して、大規模なビデオデータセットで最初から事前トレーニングを行うと、多くの計算リソースと時間が消費されます。したがって、異なるビデオ間で有効なビデオ表現を効率的に学習するために、BEVTは、自己監視ビデオ表現学習を、画像データでの空間表現学習とビデオデータでの時間的動的情報表現学習に分離します。これらの2つの表現学習は、画像データとビデオデータを同時にトレーニングし、BERTマスク予測の自己監視タスクを介して個別にトレーニングする双方向アーキテクチャとして具体化されます。

双方向フレームワークでの自己監視表現学習-マスクされた画像モデリングとマスクされたビデオモデリング

BEVTは、BERT目標を使用して、画像データとビデオデータに対してそれぞれマスクされた画像モデリングタスク(マスクされた画像モデリング)とマスクされたビデオモデリングタスク(マスクされたビデオモデリング)を実行します。さらに、マスクされたビデオモデリングは、VideoTransformerが時間的な動的情報を学習するのに役立ちますビデオでの表現。画像経路の場合、画像は入力トークンとしていくつかのパッチに分割され、マスク画像モデリングのトレーニング目標は、マスク入力から対応する個別のビジュアルトークンを復元することです。同様に、ビデオ経路の場合、ビデオはいくつかの3Dパッチにセグメント化され、マスクされたビデオモデリングの目標は、マスクされた3D入力から対応する個別のビジュアルトークンを復元することでもあります。イメージトランスフォーマーの事前トレーニング方法BEiTによると、BEVTは事前トレーニングされたVQ-VAEを使用して、自己監視事前トレーニングタスクの予測ターゲットとして連続画像コンテンツを離散ビジュアルトークンに変換します。

画像チャネルとビデオチャネルは、異なるマスキング戦略を採用しています。マスクされた画像モデリングタスクでは、ブロック単位のマスキングが使用されます。マスクされたビデオモデリングタスクの場合、ブロックワイズマスキング方法は、時空間3D入力に適したチューブマスキング方法に拡張されます。

BEVTモデルアーキテクチャ

BEVTは、イメージパスとビデオパスで構成され、それぞれがエンコーダ-デコーダモデルアーキテクチャで構成されています。BEVTは、Video Swin Transformerを、自己監視型表現学習の画像およびビデオ経路のエンコーダーとして使用します。Video SwinTransformerはSwinTransformerから拡張された階層アーキテクチャであるため、トークンシーケンスで構成される特徴マップは時空間次元でダウンサンプリングされます。

Transformerによって抽出された特徴マップをGroundtruthビジュアルトークンの数に一致するサイズに変換するために、研究者はまた、それぞれ画像チャネルとビデオチャネル用の軽量デコーダーを設計しました。ビデオチャネルを例にとると、デコーダーは最初にデコンボリューションレイヤーを使用して、Video Swinステージ4によって出力された特徴マップを空間的にアップサンプリングし、次にステージ3によって出力された特徴マップを使用して特徴次元でスプライシングを実行します。次に別のデコンボリューションが使用されます。レイヤーは時間的なアップサンプリングを実行して、特徴マップを適切なサイズに復元します。最後に、線形分類器を使用して、各場所の個別のビジュアルトークンの予測を出力します。画像チャネルデコーダの設計は、一時的なアップサンプリングブロックが削除されていることを除いて、同様です。

76b7f15f4e06a7ca87d9d95701fa62db.png

共同トレーニングの目的とトレーニング戦略

BEVTの2パストレーニングでは、マスク画像モデリングとマスクビデオモデリングの目標は、マスク位置に対応するグラウンドトゥルースビジュアルトークンの対数尤度を最大化することです。

2c60fb5d8800c960a​​8d3bd501c665a56.png

db409d09c4baf6b5fd8732573133816b.png

双方向ジョイントの事前トレーニングの目標は、上記の2つのタスクを組み合わせることです。

74100d640393006302d37037c0b3e457.png

大規模なビデオデータでビデオトランスフォーマーを最初から事前トレーニングすることは非常に非効率的であるため、BEVTは最初にImageNet-1Kで画像経路を事前トレーニングし、モデルが適切な空間表現を学習するようにします。ビデオパスウェイモデルを初期化するためのイメージパスウェイモデル。、双方向の共同自己監視トレーニングを実行します。マスクイメージモデリングタスクにより、Transformerモデルは空間情報表現能力を保持でき、マスクビデオモデリングタスクにより、モデルは次のことが可能になります。ビデオで時間的な動的情報を抽出する方法を学びます。この戦略により、BEVTがより効率的になるだけでなく、事前トレーニングされたモデルがさまざまなタイプのビデオのさまざまな識別機能を抽出できるようになります。

画像ビデオ双方向フレームワーク用の変圧器の重み共有メカニズム

同じセットのビデオトランスフォーマーモデルウェイトがイメージパスとビデオパスの両方の事前トレーニングの恩恵を受けることができるようにするために、イメージパスエンコーダーとビデオパスエンコーダーは、デュアルパスジョイントトレーニング中にモデルウェイトのほとんどを共有します。この重み共有メカニズムの実現は、主にTransformerモデルの優れた特性によるものです。つまり、自己注意モジュールとFFNの両方の重みは、入力トークンシーケンスの長さに依存しません。

BEVTで使用されるVideoSwinTransformerは、もともとビデオの特徴を抽出するために使用されていました。研究者は、画像パスの計算に重みを使用できるようにするために、次の戦略を設計しました。

  1. 画像経路は2Dパッチ分割を使用し、ビデオ経路は3Dパッチ分割を使用します。画像経路とビデオ経路は、独立したパッチ埋め込みレイヤーを使用して、それぞれ2Dパッチと3Dパッチを同じ次元に投影します。

  2. 画像パスについては、Video Swin Transformerの自己アテンションメカニズムの3Dシフトローカルウィンドウが2Dバージョン(つまり、Swin Transformerの方法)に変換されます。このとき、画像パスは、相対的なサブマトリックスを使用します。 2次元相対位置エンコーディングとしての3D相対位置エンコーディングでは、時間距離は0に等しくなりますが、他の自己注意モジュールの重みは完全に共有できます。重み共有メカニズムにより、画像とビデオのパスを共同で事前トレーニングして、ほぼ均一なTransformerエンコーダーを真に最適化できます。

実験結果

事前トレーニング段階では、BEVTの画像経路はImageNet-1Kデータセットでトレーニングされ、ビデオ経路はKinetics-400データセットでトレーニングされ、エンコーダーはVideoSwin-Baseをバックボーンとして使用します。事前にトレーニングされたVideoSwinTransformerエンコーダーは、微調整とテストのためにさまざまなビデオ認識タスク(Kinetics-400、Something-Something v2、およびDiving48)に転送されます。

さまざまな事前トレーニング方法との比較

ビデオトランスフォーマーの事前トレーニング方法としてのBEVTの有効性を説明するために、研究者はImageNetの完全監視事前トレーニング(Image Sup)、比較学習事前トレーニング(Image CL)、および画像経路事前トレーニング( BEVT)さまざまなビデオダウンストリームタスク-I)、ビデオパスウェイ事前トレーニング(BEVT-V)これらの4つのベースライン。

実験結果は、BEVTが完全に監視された事前トレーニング(Top-1で4.3%および2.7%高い精度)およびSomething-Something v2とDiving48の両方で対照的な学習事前トレーニングを大幅に上回っていることを示していますが、Kinetics-400では2に匹敵する結果です。ベースライン。

シングルストリームの事前トレーニングと比較して、BEVTのデュアルチャネルジョイント事前トレーニングは、3つのダウンストリームタスクすべてで優れたパフォーマンスを実現します。大規模なビデオデータセットでのdenovoビデオチャネル事前トレーニングの結果は、デュアルチャネルよりも大幅に弱くなります。事前トレーニング:共同事前トレーニング。これは、BEVTでの分離設計と共同トレーニングの有効性と効率をさらに示しています。

ce56b5a9cf8e2646c0a64040bf949a21.png

データセット分析-時間情報の重要性

さまざまなデータセットでのBEVTおよびその他の事前トレーニング済みベースラインの転送パフォーマンスの違いをさらに理解するために、研究者は3つのビデオ認識ダウンストリームタスクの時間情報への依存を調査する実験を設計しました。3つのビデオデータセットでVideoSwinTransformerをテストするとき、研究者は2つの方法でビデオ入力から時間情報を削除しようとしました。(1)シングルフレーム:ビデオフレームの1つを使用してビデオクリップフレームのもう1つを置き換えます。 (2)ランダムシャッフル:時間次元でビデオフレームの入力順序をランダムにシャッフルします。

研究者は、時間情報の削除がKinetics-400の予測結果にわずかな影響を与える一方で、Something-Somethingv2およびDiving48の予測結果にかなりの影響を与えることを発見しました。これは、ほとんどのKinetics-400ビデオが空間情報キューによってのみ正しく識別できることを示していますが、時間的動的情報は、Something-Somethingv2およびDiving48ビデオの認識にとって非常に重要です。したがって、空間情報の手がかりが支配的なデータセット(Kinetics-400など)の場合、大規模な画像データセットでの事前トレーニングはかなりのパフォーマンスをもたらす可能性があり、追加のビデオチャネルの事前トレーニングはパフォーマンスの向上にほとんど影響しません。 SSv2やDiving48などの時間的な動的情報に大きく依存しているため、BEVTでのビデオ経路の事前トレーニングの役割は重要です。

この実験は、さまざまなビデオの認識がさまざまな種類の有益な手がかりに依存することを示しています。さまざまなビデオデータセットで優れたパフォーマンスを実現するには、画像経路とビデオ経路の共同事前トレーニング設計が必要です。

2c0a8fe874a9a6d005cdd673810238be.png

SOTAモデルとの比較

BEVT事前トレーニング実験では、研究者は、それぞれDALL-EとPeCoからの個別のビジュアルトークンをエンコードする2つのトークナイザーを使用しました。ここで、PeCoは、マスク画像モデリングタスクに使用されるImageNet-1Kで事前トレーニングされたトークナイザーです。 DALL-Eトークナイザーより。より強力なトークナイザーを使用すると、BEVTがダウンストリームビデオタスクでより優れたパフォーマンスを実現するのに役立つことがわかります。

SOTAモデルとの比較では、Something-Something v2およびDiving48では、BEVTは既存のSOTAビデオモデルよりも大幅に優れたパフォーマンスを実現します。Kinetics-400では、BEVTも計算コストよりも優れたパフォーマンスを実現します。同様のSOTAモデルより良いまたは同等のパフォーマンスがあります。

04155615ee1366015dc76575d53da0b9.png

715fe1b86f9036adcb61764262cf5a25.png

dfea56137a9d84822a361d87b7614342.png

画像経路の事前トレーニングの重要性

BEVTは、最初に事前トレーニングされ、画像データセットでの画像パスBERT事前トレーニングによって空間表現を効率的に学習します。これは、2パスジョイントBERT事前トレーニングの初期化として使用されます。

研究者は、実験を通じてこの戦略の重要性を示しています。(1)初期化として画像チャネルの事前トレーニングから取得したモデルの重みを使用すると、ビデオチャネルの事前トレーニングとデュアルチャネルジョイントの事前トレーニングの両方の効果を向上させることができます。(2)初期化として画像パス事前トレーニングを使用する場合でも、画像パスとビデオパスを一緒にトレーニングする必要があり、純粋なビデオパス事前トレーニングと比較してパフォーマンスが大幅に向上します。

55d123b252301109b7b93c4ad948e07c.png

他のビデオTransformerモデルアーキテクチャへの拡張

研究者は、BEVTでの双方向ジョイント事前トレーニングは、他のビデオTransformerモデルアーキテクチャに一般化できる一般的なビデオTransformer事前トレーニング方法であると考えています。これを説明するために、研究者はBEVTフレームワークをTimeSformerフレームワークに拡張しました。実験結果は、BEVTが、さまざまなビデオダウンストリームタスクでのImageNet完全監視あり事前トレーニングおよび画像経路事前トレーニングよりもTimeSformerが大幅に優れたパフォーマンスを達成するのにも役立つことを示しています。

6841498fcc298e04461babddd73cebff.png

要約する

最初のビデオTransformerBERT事前トレーニング方法として、BEVTは、画像Transformer BERT事前トレーニングのマスク画像モデリングタスクをマスクビデオモデリングタスクに拡張するだけでなく、大規模な最初から直接トレーニングするという比較的非効率的な方法も回避します。 -スケールビデオデータにより、モデルはさまざまなタイプのビデオデータセットで優れた転送パフォーマンスを実現できます。

この画像とビデオの共同自己監視事前トレーニング方法は、ビデオTransformerでの表現学習のための新しい効率的なトレーニング方法を提供し、さまざまなビデオTransformerアーキテクチャに一般化できます。研究者は、以下の作業が、限られたリソースの下での効率的な事前トレーニング、複数の自己監視タスクの共同トレーニング、およびこのマルチソースデータ統合アーキテクチャに基づくマルチモーダルデータの共同トレーニングの課題をさらに検討できることを望んでいます。 -トレーニングフレームワーク。セクシュアリティの問題を解決するために、画像-ビデオ/マルチモーダル統合モデルの研究でより大きなブレークスルーを実現します。

 
  

ICCVおよびCVPR2021ペーパーおよびコードのダウンロード

舞台裏の返信:CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理は簡単ではありませんので、気に入って見てください448667d914a6974747065aade3189c2e.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/124418462