TimeSformer: ビデオに必要なのは時空間の注意だけですか 紙の速度を理解する 読み取りとコア ポイントのまとめ

概要

  • 空間的および時間的自己注意に完全に基づいたビデオ分類のための畳み込みのない方法。
  • メソッド名は「TimeSformer」です。
  • フレームレベルのパッチのシーケンスから時空間の特徴を直接学習することで、標準的な Transformer アーキテクチャをビデオに適応させます。
  • さまざまなセルフアテンション スキームを比較すると、分割アテンションが最高のビデオ分類精度を実現します。
  • 3D 畳み込みネットワークと比較して、私たちのモデルはトレーニングが高速で、テスト効率が大幅に向上します (精度はわずかに低下します)。また、より長いビデオ クリップ (1 分以上) にも適用できます。

序章

  • Transformer モデルは、単語間の長距離依存関係をキャプチャするだけでなく、スケーラビリティのトレーニングにも優れています。
  • ビデオ理解と NLP の高い類似点:
    • 動画も文章もシーケンシャル
    • ある単語の意味が文中の他の単語との関係でしか理解できないことが多いのと同様に、完全にあいまいさをなくすには、短時間のクリップの基本的なアクションをビデオの残りの部分と組み合わせる必要があると主張できます。
  • ビデオ認識モデルの唯一の構成要素として自己注意を使用しようとした人は誰もいません。
  • このような設計には、ビデオ分析の畳み込みモデルの固有の制限を克服する可能性があります。
  • まず、それらの強い帰納的バイアス (たとえば、ローカル接続や翻訳などの分散) は、小さなトレーニング セットには間違いなく有益ですが、モデルの表現能力を過度に制限する可能性があります。. トランスフォーマーは、CNN よりも制限の少ないバイアスを課すため、表現力が拡大し、強力な誘導事前知識の必要性が少ない現代のビッグデータ体制により適したものになります。
  • 第二に、畳み込みカーネルは短距離の時空間情報をキャプチャするように特別に設計されていますが、受容野を超えた依存関係をモデル化することはできません。畳み込みの深い積み重ねは自然に受容野を拡大しますが、これらの戦略には、短距離の情報を集約することによって長距離の依存関係を捉えるという固有の制限があります。代わりに、すべての時空間的な場所で機能のアクティベーションを直接比較することにより、自己注意メカニズムを適用して、より大きな受容野を持つローカルおよびグローバルの両方の長距離依存関係をキャプチャできます。[ここでは、受容野が限られている、または受容野が小さすぎると言っています]
  • 最後に、GPU ハードウェア アクセラレーションの進歩にもかかわらず、ディープ CNN のトレーニングは、特に高解像度の長いビデオに適用する場合、法外に高価なままです。CNN と比較して、Transformers はより高速なトレーニングおよび推論機能を備えているため、同じコンピューティング予算でより優れた学習機能を備えたモデルを構築できます。
  • ビデオは、個々のフレームから抽出された一連のパッチと考えてください。各パッチは埋め込みに線形にマッピングされ、位置情報が追加されます。これにより、結果のベクトルのシーケンスをトークンの埋め込みとして解釈し、Transformer エンコーダーに渡すことができます。
  • 標準の Transformer での自己注意の欠点は、すべてのトークン ペアの類似度を計算する必要があるため、計算コストが高くなることです。ネットワークの各ブロックに時間的注意と空間的注意を別々に適用することを考えてください。
  • TimeSformer は、畳み込みベースのビデオ アーキテクチャの確立されたパラダイムとは根本的に異なる設計を採用しています。ただし、その精度は、この分野の最先端技術に匹敵し、場合によってはそれ以上です。また、私たちのモデルを使用して、何分にもわたるビデオをリモートでモデル化できることも示しています。

関連作業

  • 畳み込み演算子と組み合わせて、またはその完全な代替として、画像分類に注意を払う
  • 最も近い: 畳み込みではなく自己注意を使用するイメージ ネットワークですが、メモリ消費と計算コストに問題があります。私たちの実験で考慮された自己注意演算子のいくつかは、時空間ボリュームに一般化されていますが、同様のスパース性と軸方向の計算を採用しています。
  • Visual Transformer (ViT)、パッチ + トークン埋め込みのアイデア
  • さまざまなビデオ言語タスクを解決するために、テキスト変換とビデオ CNN の組み合わせに基づく多数の文献があります。

TimeS旧モデル

  • 入力映像:H W 3チャンネル×Fフレーム
  • パッチに分解: 各フレームは N 個のパッチに分解され、各パッチのピクセル数は 3 P P
  • 線形埋め込み: z(p, t) を取得するための学習可能な行列と位置エンコード (学習可能な時空間位置埋め込み) による乗算、各パッチと各時間は、長さ D のトークンに A クラス トークンを加えたものに対応します。変圧器の入力
  • QKV 計算:

画像.png

  • 自己注意: 内積演算による。

画像.png
ブロック a、ヘッダ l において、時刻 t、位置 p のトークンに対して、その q を使用して、同じ層内の他のすべてのトークンとの類似性を取得し、softmax を実行します。

  • 符号化: a番目のブロックのトークン、l番目のヘッダー、時刻t、および位置pに対して、アテンション係数の加重和を使用(同じブロックおよび同じヘッド内の他のトークンのみを気に)

画像.png
その後、同じブロック内のすべてのヘッドの計算結果が結合され、行列が乗算され、MLP の後、この多層注意ブロックの計算が完了します。
画像.png

  • 分類の埋め込み: 別の LN と MLP を追加して、最終的な出力を取得します。
  • 時空間自己注意モデル: T+S 注意法が提案され、T と S が 1 つずつ適用されます。
    • T: 各トークンについて、同じ場所にある異なる時間のすべてのトークンを比較します

画像.png

  • さ:…
  • スパース ローカル グローバル: まず、時間的および空間的に隣接するすべてのパッチ (ローカル) を考慮してから、ステップ サイズ 2 でスパース パッチ (グローバル) を計算します。ローカル/グローバルな分解とスパース パターンを使用した完全な時空間的注意の近似値です。
  • Aixal: 時間、幅、高さ

実験

  • 解決策: 8×224×224 のサイズのクリップを使用し、フレーム サンプリング レートは 1/32 です。パッチのサイズは 16×16 ピクセルです。ImageNet-21K で ViT を事前トレーニングします。
  • K400 および SSv2:
    • K400 では、空間情報が時間情報よりも重要であり、K400 で時間モデリングを行わなくても、信頼できる精度を得ることができます。SSv2 では、スペースだけに注目してもうまくいきません。
    • SSv2 では、ImageNet-1K と ImageNet-21K の前処理により、同様の精度が得られます。SSv2 は複雑な時空間推論を必要とするため、K400 は空間シーン情報に傾倒しているため、前処理された大規模なデータセットで学習した特徴から大きな恩恵を受けます。
    • K400 では、TimeSformer がすべてのケースで最高のパフォーマンスを発揮しました。より複雑な時間的推論が必要な SSv2 では、十分なトレーニング ビデオが使用されている場合にのみ、TimeSformer が他のモデルよりも優れています。
    • 空間位置の埋め込みのみを使用すると、Kinetics-400 では信頼できる結果が得られますが、Something-Something-V2 ではより悪い結果が得られます。これは、Kinetics-400 がより空間的に偏っているのに対し、SomethingSomething-V2 は複雑な時間的推論を必要とするためです。

計算コスト (左の図は空間解像度を上げるためのもので、右の図はビデオ フレーム数を増やすためのものです):
画像.png

  • TimeSformer は、大規模な学習を伴う環境により適しています。対照的に、最新の 3D CNN の膨大な計算コストにより、効率を維持しながらモデルの容量をさらに増やすことは困難です。
  • 3 つのバリエーション:
    • TimeSformer:8 × 224 × 224 ビデオ クリップ
    • TimeSformer-HR:16 × 448 × 448 ビデオ クリップ
    • TimeSformer-L:96 × 224 × 224
  • Diving-48 データセット: TimeSformer の精度は、このデータセットの最適なモデルよりも低くなっています。ただし、モデルがまったく異なる設計を使用していることを考えると、これらの結果は、TimesFormer が、SSv2 などの困難な時間集約型データセットに対しても有望なアプローチであることを示していると思います。
  • 長期ビデオ モデリング: HowTo100M データセット。少なくとも 100 個のビデオ データ (サブセット) を持つインスタンスのみが考慮されます。

結論

この作業では、畳み込みベースのビデオ ネットワークの確立されたパラダイムと比較して、ビデオ モデリングへの根本的に異なるアプローチである TimeSformer を紹介します。
時空間自己注意に完全に基づいて、効率的でスケーラブルなビデオ アーキテクチャを設計できることを示します。当社のアプローチ:
(1) 概念的に単純である、
(2) 主要なアクション認識ベンチマークで最先端の結果を達成する、
(3) トレーニングと推論が安価である、
(4) 1 分を超えるクリップに適用できる、長期的なビデオ モデリングを可能にします。
将来的には、アクションのローカリゼーション、ビデオのキャプション、質問への回答など、他のビデオ分析タスクにこの方法を拡張する予定です。

おすすめ

転載: blog.csdn.net/qq_41112170/article/details/130026964