【映像理解】2021-ICML-映像理解に必要なのは時空間的注意だけ?

ビデオを理解するために必要なのは時空間的な注意だけなのでしょうか?

紙の住所
コード住所

まとめ

 私たちは完全に空間と時間に基づいた畳み込みのないビデオ分類方法を提案します自注意力「TimeSformer」と名付けられた私たちの手法は、一連のフレームレベルのパッチから直接時空間特徴学習を可能にすることで、標準の Transformer アーキテクチャをビデオに適応させます。私たちの実験研究では、さまざまなセルフ アテンション スキームを比較し、「分割注意」、つまり各ブロック内で時間的注意と空間的注意を別々に適用することが、検討された設計選択肢の中で最高のビデオ分類精度につながることを示しています。新しい設計にもかかわらず、TimeSformer は、Kinetics-400 および Kinetics-600 で最高の精度が報告されているなど、複数の動作認識ベンチマークで最先端の結果を達成しています。最後に、3D 畳み込みネットワークと比較して、私たちのモデルはトレーニングが速く、より高いテスト効率を達成でき (精度はわずかに低下します)、さらに長いビデオ クリップ (1 分以上) にも適用できます。コードとモデルは https://github.com/facebookresearch/TimeSformer から入手できます。

1 はじめに

 過去数年にわたって、自然言語処理 (NLP) の分野は、自己注意ベースの手法の出現により革命を起こしてきました (Vaswani et al、2017a)。Transformer モデルなどのセルフアテンション アーキテクチャは、単語間の長距離の依存関係を捉える優れた能力とトレーニングのスケーラビリティにより、機械翻訳を含む幅広い言語タスクの現在の最先端技術を表しています (Ott et al、2018 ; Chen et al、2018a)、質問応答(Devlin et al、2019; Dai et al、2019)、および自己回帰単語生成(Radford et al、2019; Brown et al、2020)。

 ビデオの理解には、NLP と高レベルの類似点がいくつかあります。まずは動画と文章の順です。さらに、単語の意味が文中の他の単語と関連付けることによってのみ理解できることが多いのと同様に、短期間のクリップ内の単発的なアクションは、完全に曖昧さをなくすためにビデオの残りの部分と統合する必要があると主張することもできます。 。したがって、NLP の長距離自己注意モデルはビデオ モデリングにも非常に効果的であることが期待されますただし、ビデオ領域では、2D または 3D 畳み込みが、依然としてさまざまなビデオ タスクにわたる時空間特徴学習の中核演算子です (Feichtenhofer et al、2019a; Teed & Deng、2020; Bertasius & Torresani、2020)。自己注意は、畳み込み層の上に適用すると利点が示されていますが (Wang et al、2018a)、私たちの知る限り、ビデオ認識モデルの唯一の構成要素として自己注意を使用しようとした人は誰もいません。

この研究では、畳み込み演算子をセルフ アテンションに完全に置き換えることによって、高性能の畳み込みのないビデオ アーキテクチャを構築できるかどうかという 疑問を投げかけます私たちは、このような設計により、ビデオ分析の畳み込みモデルに固有の制限の一部を克服できる可能性があると信じています。まず、強力な帰納バイアス (ローカル接続性や並進等分散性など) は、小規模なトレーニング セットにとっては間違いなく有益ですが、データが十分であり、インスタンスの表現能力から「すべて」を学習できる状況では、モデルを過度に制約する可能性があります。変圧器は、CNN よりも制限の少ない誘導バイアスを課します。これにより、表現できる関数のファミリーが拡張され (Cordonnier et al, 2020; Zhao et al, 2020)、強力な帰納的事前分布が必要とされない現代のビッグデータ システムにより適したものになります。第 2 に、コンボリューション カーネルは短距離の時空間情報を取得するように特別に設計されていますが、受容野を超えた依存関係をモデル化することはできません深い畳み込み (Simonyan & Zisserman, 2015; Szegedy et al, 2015; Carreira & Zisserman, 2017) は自然に受容野を拡大しますが、これらの戦略は、短距離の情報を集約することによって長距離の依存関係を捉えることには本質的な限界があります対照的に、セルフ アテンション メカニズムは、従来の畳み込みフィルターの受容野をはるかに超えて、すべての時空間位置での機能のアクティブ化を直接比較することで、ローカルおよびグローバルの長期依存関係を捕捉するために適用できます。最後に、GPU ハードウェア アクセラレーションの進歩にも関わらず、ディープ CNN のトレーニングは依然として高価であり、特に高解像度で長いビデオに適用する場合にはその傾向が顕著です。静止画像の分野における最近の研究 (Dosovitskiy et al, 2020; Carion et al, 2020; Zhao et al, 2020) では、Transformer は CNN と比較してトレーニングと推論の速度が速く、Build で同じ計算を実行できることが示されています。予算内でより優れた学習機能を備えたモデル。

 これらの観察に触発されて、私たちは完全に自己注意に基づいたビデオ アーキテクチャを提案します。私たちは、自己注意メカニズムを画像空間から時空間 3D ボリュームに拡張することで、画像モデル「Vision Transformer」(ViT)(Dosovitskiy et al、2020)をビデオに適応させます。「TimeSformer」(Time-Space Transformer より)と呼ばれる私たちが提案したモデルは、ビデオを個々のフレームから抽出された一連のパッチとして扱います。ViT と同様に、各ブロックは埋め込みに線形にマッピングされ、位置情報で強化されますこれにより、生成されたベクトルのシーケンスを、NLP の単語から計算されたトークン特徴と同様に、Transformer エンコーダー に供給できるトークン埋め込みとして解釈できるようになります。

 標準の Transformer におけるセルフアテンションの欠点の 1 つは、すべてのタグ ペアの類似性測定を計算する必要があることです。私たちの設定では、ビデオ内のブロック数が多いため、計算コストが高くなりますこれらの課題に対処するために、私たちは時空間ボリューム上でいくつかのスケーラブルな自己注意デザインを提案し、大規模な行動分類データセット上で経験的に評価します。提案されたスキームの中で、最良の設計は、ネットワークの各ブロック内で時間的および空間的注意を個別に適用する「分散型注意」アーキテクチャによって表されることがわかりましたTimeSformer は、畳み込みベースのビデオ アーキテクチャの確立されたパラダイムと比較して、根本的に異なる設計を採用しています。ただし、その精度は、この分野の最新テクノロジーに匹敵し、場合によってはそれ以上です。また、私たちのモデルが数分間のビデオにわたる長距離モデリングに使用できることも示します。

2.関連作品

 私たちのアプローチは、画像分類にセルフ アテンションを使用する最近の研究の影響を受けており、畳み込み演算子と組み合わせて使用​​したり、畳み込み演算子を完全に置き換えたりすることもできます。前者のカテゴリでは、非ローカル ネットワーク (Wang et al、2018b) は非ローカル手段を使用し、Transformer のセルフアテンション機能を効果的に要約します (Vaswani et al、2017b)。Bello et al. (Bello et al, 2019) は、2D 畳み込みの代替として競合する 2D セルフ アテンション メカニズムを提案しましたが、セルフ アテンション機能で畳み込み機能を強化するために使用すると、より多くの問題が発生します。画像分類に加えて、Relation Network (Hu et al、2018) と DETR (Carion et al、2020) は、物体検出のために畳み込み特徴マップに加えてセルフ アテンションを使用します。

 私たちのアプローチは、畳み込みの代わりに自己注意を利用する画像ネットワークとより密接に関連しています(Parmar et al、2018; Ramachandran et al、2019; Cordonnier et al、2020; Zhao et al、2020)。これらの作業では単一のピクセルをクエリとして使用するため、計算コストを管理しやすくメモリ消費を抑えるために、セルフ アテンションの範囲をローカルな近傍に制限するか、大幅に縮小されたバージョンでグローバルなセルフ アテンションを使用する必要があります。画像。フル画像にスケールする代替戦略には、スパースなキー値サンプリング (Child et al、2019) や、空間軸に沿って計算するための自己注意の制限 (Ho et al、2019; Huang et al、2019; Wang et al、2020b) が含まれます。実験で検討された自己注意演算子の一部は、時空ボリュームに一般化されていますが、同様のスパース性と軸性計算を使用しています。ただし、私たちの方法の効率は主に、ビデオを一連のフレームレベルのブロックに分解し、これらのパッチの線形埋め込みを入力トークン埋め込みとして Transformer に提供することにあります。この戦略は最近 Vision Transformers (ViT) (Dosovitskiy et al、2020) で導入され、画像分類において優れたパフォーマンスを提供することが示されています。この研究では、ビデオ用のいくつかのスケーラブルな時空間自己注意スキームを提案し、経験的に比較することによって、ViT の設計を構築し、それをビデオに拡張します。

 トランスフォーマーは最近ビデオ生成に使用されていますが (Weissenborn et al、2020)、唯一の構成要素として自己注意を使用した以前のビデオ認識アーキテクチャについては知りません。ただし、畳み込み特徴は、アクションの位置特定と認識(Girdhar et al、2019)、ビデオ分類(Wang et al、2018b; Chen et al、2018b)、およびグループアクティビティの認識(Gavriyuk et al、2020)で使用されることに注意してください。図の上ではトランスが使用されています。また、字幕 (Zhou et al、2018)、質問応答 (Yang et al、2020)、および対話(Le et al、2019)。最後に、マルチモーダルビデオからテキストへのコンバーター (Sun et al、2019; Li et al、2020a) も、言語ドメイン (Devlin et al) から適応されたマスクマーキング言い訳タスクを採用することで、教師なしの方法でトレーニングまたは事前トレーニングされています。 、2018;ラドフォード他、2018)。

3.TimeSformerモデル

入力クリップTimeSformer は、フラグメントX ∈ RH × W × 3 × FX\in\mathbb{R}^{H\times W\times3\times F} を変換します。バツRH × W × 3 × Fを入力として、元のビデオからサンプリングされたFFFは、H × WH\time Wのサイズです。H×W はRGB フレームで構成されます。

パッチに分解しますViT (Dosovitskiy et al, 2020) に従って、各フレームをNNに分解します。N 個の重複しないブロック、それぞれのサイズはP × PP\times PP×PなのでNNN個のブロックがフレーム全体に広がります。つまり、N = HW / P 2 N=HW/P^2N=HW / P _これらのブロックをベクトルx ( p , t ) ∈ R 3 P 2 x_{(p,t)}\in\mathbb{R}^{ { 3P}^2}バツ( p , t )R3P _2、ここで、p = 1, . . . N p=1,\ .\ .\ .\ Np=1  . . . N は   空間位置を表します、t = 1, . . . F t=1,\ .\ .\ .\ Ft=1  . . . Fは   フレームインデックスを記述します。

線形埋め込み学習可能な行列E ∈ RD × 3 P 2 E\in\mathbb{R}^{ {D\times3P}^2}を渡します。ERD × 3P _2各ブロックx ( p , t ) x_{(p,t)} をバツ( p , t )z ( p , t ) ( 0 ) ∈ RD z_{(p,t)}^{(0)}\in\mathbb{R}^D に線形マッピングします。嵌入向量 z( p , t )( 0 )RD

公式 1

 その中e ( p , t ) pos ∈ RD e_{(p,t)}^{pos}\in\mathbb{R}^De( p , t )pos _RD は、各ブロックの時空間位置を符号化するために追加される学習可能な位置埋め込みを表しますp = 1 , . . . , Nの場合p=1     N、結果のベクトルz ( p , t ) ( 0 ) z_{(p,\ t)}^{(0)}z( p , t ) ( 0 ), t = 1 , . . . , F の埋め込みシーケンスt=1,\ .\ .\ .,\ Ft=1     Fは Transformer の入力を表し、その機能は NLP のテキスト Transformer への埋め込み単語シーケンス入力に似ています。オリジナルの BERT Transformer (Devlin et al、2018) と同様に、特別な学習可能なベクトルz (0, 0) (0) ∈ RD z_{(0,\ 0)}^ をシーケンス {(0) の最初の位置に追加します。 )}\in\mathbb{R}^Dz( 0 , 0 ) ( 0 )RDは、カテゴリカル ラベルの埋め込みを表します

クエリ-キー-値の計算私たちのトランスフォーマーはLLによって作成されましたそれはL 個のコーディング ブロックで構成されます。各ブロック内ℓ \ellでは、查询 / 键 / 值向量前のブロック(p,\ t)}^{(\ell-1)} からエンコードされた表現 z ( p , t ) ( ℓ − 1z( p , t ) ( 1 )は次のブロックごとに計算されます。

公式 2

公式 3

公式 4

 ここで、LN ( ) \rm{LN\left(\right)}LN( )で示すLayerNorm(Ba et al, 2016)、a = 1 , . , A a=1,\ .\ .\ .,\ \mathcal{A}ある=1     A注意力头は複数(注目ヘッド)のインデックスですA \mathcal{A}A は注目ヘッドの総数を表します。各注目ヘッドの潜在次元はD h = D / A D_h=D/\mathcal{A}D=D / A

自己注意の計算自注意力权重ドット積で計算されます。クエリブロック( p , t ) (p,\ t)( p , t )の自己注意の重みα ( p , t ) ( ℓ , a ) = RNF + 1 \alpha_{(p,\ t)}^{(\ell,\ a)}=\mathbb{R}^ {NF+1}ある( p , t ) ( a  )=RNF + 1は次のように求められます。

公式 5

 ここでSM \rm{SM}SM はソフトマックス アクティベーション関数の略です。アテンションが 1 つの次元のみ (たとえば、空間のみ、または時間のみ) で計算される場合、計算量が大幅に削減されることに注意してください。たとえば、空間的注意の場合は、N+1 N+1N+1クエリキー比較。クエリと同じフレームのキーのみを使用します。

公式 6

エンコーディングブロックℓ \ellz を ( p , t ) ( ℓ ) でエンコード z_{(p,\ t)}^{(\ell)}z( p , t ) ( )は、各アテンション ヘッドからのセルフ アテンション係数を使用して、値ベクトルの重み付き合計を最初に計算することによって取得されます。

公式 7

 すべてのヘッドからのこれらのベクトルの連結は、各操作後の残りの接続を使用して投影され、MLP を介して渡されます。

公式 8

公式 9

分類の埋め込み最終的な片段嵌入力は、分類タグの最後のブロックから取得されます。

公式 10

 この表現に加えて、最終的なビデオ クラスを予測するための 1 隠れ層 MLP を追加します。

時空自己注意モデル式 5 を各フレーム内のみの空間的注意に置き換えることにより、計算コストを削減できます (式 6)。ただし、そのようなモデルは、フレーム間の時間依存性をキャプチャすることを無視します。私たちの実験が示すように、このアプローチは、特に強力な時間モデリングを必要とするベンチマークにおいて、完全な時空間的注意に比べて分類精度の低下につながります。

 私たちは、「分割時空注意」というより効率的な時空間注意アーキテクチャを提案します(T + S T + Sを使用)T+Sは) を表し、時間的注意と空間的注意が別々に適用されますこのアーキテクチャを、図 1 の空間的注意および共同時空間的注意のアーキテクチャと比較します。図 2 は、ビデオの例でさまざまな注意モデルを視覚化したものです。分割注意の場合、各ブロック内で、まず各ブロック( p , t ) (p,\ t)を分割します。( p , t ) は、時間的注意を計算するために、他のフレームの同じ空間位置にあるすべてのブロックと比較されます

公式 11

式 8 を適用すると、z ' ( p , t ) ( ℓ ) time {z^\prime}_{(p,\ t)}^{(\ell)time} をエンコードした時間的注意が得られます。z( p , t ) ( )時間_ _、その後、 MLP に渡されるのではなく、空間アテンションの計算のためにフィードバックされます。つまり、新しいキー/クエリ/値ベクトルはz ' ( p , t ) ( ℓ ) time {z^\prime}_{(p,\ t)}^{(\ell)time} からのものです。z( p , t ) ( )時間_ _を取得し、式 6 を使用して空間的注意を計算します。最後に、生成されたベクトルz ' ( p , t ) ( ℓ ) space {z^\prime}_{(p,\ t)}^{(\ell)space}z( p , t ) ( )スペース_ _ _式 9 の MLP に渡されます。ブロックℓ \ellを計算します z ( p , t ) ( ℓ ) z_{(p,\ t)}^{(\ell)}におけるブロックの最終的なエンコードz( p , t ) ( )分割注意モデルの場合、さまざまなクエリ/キー/値行列{ WQ time ( ℓ , a ) 、 WK time ( ℓ , a ) 、 WV time ( ℓ , a ) } \left\{W_{Q^ {time }}^{(\ell,a)},\ W_{K^{時間}}^{(\ell,a)},\ W_{V^{時間}}^{(\ell,a) }\右\}{ WQ時間_ _( a ) WK時間_ _( a ) WV時間_ _( a )}{ WQ 空間 ( ℓ , a ) , WK 空間 ( ℓ , a ) , WV 空間 ( ℓ , a ) } \left\{W_{Q^{space}}^{(\ell,a)},\ W_{K^{space}}^{(\ell,a)},\ W_{V^{space}}^{(\ell,a)}\right\}{ WQスペース_ _ _( a ) WKスペース_ _ _( a ) WVスペース_ _ _( a )時間と空間の次元を超えて式を使用した共同時空間注意モデルでは、ブロックごとに (NF + 1 NF+1)NF+1 ) 比較比較。分割されたアテンションはブロックごとにのみ実行されます (N + F + 2 N+F+2N+F+2 ) 倍の比較。私たちの実験は、この時空間分解がより効率的であるだけでなく、分類精度も向上することを示しています。

 また、「Sparse Local Global」( L+G L+G )も実験しました。L+G)和「Axial」(T + W + H T+W+HT+W+H )注目モデル。それらのアーキテクチャを図 1 に示し、図 2 にこれらのモデルが注目するブロックを示します。各ブロック( p , t ) (p,\t)( p , t ) L + G L+GL+G ) まず、隣接するF × H / 2 × W / 2 F\times H/2\times W/2 をF×H /2×W /2ブロックを使用してローカル アテンションを計算し、次に 2 ブロックのストライドを使用して、時間次元と 2 つの空間次元に沿ったセグメント全体のまばらなグローバル アテンションを計算しますしたがって、これは、(Child et al、2019)で使用されたものと同様に、ローカル-グローバル分解とスパースパターンを使用して、完全な時空間的注意をより迅速に近似したものと見なすことができます。最後に、「軸方向」アテンションは、アテンションの計算を時間経過、幅、高さの 3 つの異なるステップに分割します(Ho et al、2019; Huang et al、2019; Wang et al、2020b)は、画像の 2 つの空間軸、つまり ( T + W + HT + W + H)T+W+H ) 3次元(時間)映像を追加した場合。これらすべてのモデルは、アテンション ステップごとに異なるクエリ/キー/値のマトリックスを学習することによって実装されます。

図1

図 1. この研究で調査したビデオの自己注意ブロック。各アテンション層は、フレームレベルのパッチの指定された時空間近傍にセルフ アテンション (Vaswani et al、2017b) を実装します (近傍の視覚化については図 2 を参照)。残差接続を使用して、各ブロック内のさまざまなアテンション層からの情報を集約します。各ブロックの最後に 1 つの隠れ層 MLP を適用します。最終的なモデルは、これらのブロックを繰り返し積み重ねることによって構築されます。

図2

図 2. この研究で研究した 5 つの時空間的自己注意スキームの視覚化。各ビデオ セグメントは、サイズ 16 × 16 ピクセルの一連のフレーム レベルのブロックとして表示されます。説明を容易にするために、クエリ ブロックを青色で表し、各スキームの下のセルフ アテンション時空間近傍を青色以外で示します。色のないブロックは、青いブロックのセルフ アテンションの計算には使用されません。スキーム内の複数の色は、異なる次元 (たとえば、(T+S) の空間と時間) または異なる近傍 (たとえば、(L+G)) に沿って個別に適用される注意を表します。セルフ アテンションはビデオ クリップ内のブロックごとに計算されます。つまり、各ブロックがクエリとして使用されることに注意してください。また、アテンション パターンは 2 つの隣接するフレームに対してのみ表示されますが、同じようにクリップのすべてのフレームに拡張されることにも注意してください。

4. 実験

 4 つの一般的な行動認識データセットで TimeSformer を評価します: Kinetics-400 (Carreira & Zisserman、2017)、Kinetics-600 (Carreira et al、2018)、Something-SomethingV2 (Goyal et al、2017b)、および Diving-48 (Li et al) al.、2018)。ImageNet-1K または ImageNet-21K (Deng et al., 2009) で事前トレーニングされた「ベース」ViT アーキテクチャ (Dosovitskiy et al., 2020) を採用し、実験ごとに指定されます。特に明記されていない限り、サイズ 8×224×224、フレーム サンプリング レート 1/32 のクリップを使用します。パッチのサイズは 16×16 ピクセルです。推論中、特に明記されていない限り、ビデオの真ん中の時間セグメントをサンプリングします。タイム スライスで 3 つの空間クロップ (左上、中央、右下) を使用し、これら 3 つのクロップのスコアを平均することで最終的な予測を取得します。

4.1. 自己注意計画の分析

 最初の実験セットでは、ImageNet-21K で事前トレーニングされた ViT から始めます。表 1 に、Kinetics-400 (K400) および SomethingSomething-V2 (SSv2) で TimeSformer を使用して提案された 5 つの時空間注意スキームによって得られた結果を示します。まず、純粋な空間アテンション (S) を備えた TimeSformer が K400 上で良好にパフォーマンスすることに注目します。これは興味深い発見です。実際、以前の研究 (Sevilla-Lara et al、2021) では、K400 では、より高い精度を達成するには、時間情報よりも空間キューが重要であることが示されています。ここでは、時間モデリングを行わずに K400 で信頼できる精度が得られることを示します。ただし、空間的注意だけでは SSv2 ではうまく機能しないことに注意してください。これは、後者のデータセットの時間モデリングの重要性を強調しています。

表1

表 1. TimeSformer のさまざまな時空間注意スキームのビデオ レベルの精度。Kinetics-400 (K400) と Something-Something-V2 (SSv2) の検証セットでモデルを評価します。分割された時空間的注意が両方のデータセットで最良の結果を達成することが観察されています。

 さらに、分割された時空間的注意が K400 と SSv2 の両方で最高の精度を達成することが観察されます。分割時空間注意には、異なる時間的注意と空間的注意の学習パラメータが含まれているため、共同時空間的注意よりも学習能力が高いため、これは理にかなっています (表 1 を参照)

 図 3 では、より高い空間解像度 (左) と長いビデオ (右) を使用した場合の、共同注意と分割時空間注意の計算コストも比較しています。どちらの設定でも、空間と時間を分割するスキームが適切にスケールされることに注目します。対照的に、時空間同時注意のスキームでは、解像度やビデオの長さが増加すると、コストが大幅に増加します実際、空間フレーム解像度が 448 ピクセルに達するか、フレーム数が 32 に増加すると、時空間の統合による注意により GPU メモリのオーバーフローが発生するため、大きなフレームや長いビデオには適していませんしたがって、パラメータの数が多いにもかかわらず、より高い空間解像度または長いビデオを操作する場合、個別の時空間的注意は共同の時空間的注意よりも効果的です。したがって、後続のすべての実験では、分割された時空間自己注意ブロックから構築された TimeSformer を使用します。

画像3

図 3. 共同時空間注意と分割時空間注意のビデオ分類コスト (TFLOP 単位) を比較します。TFLOP の数を、ピクセル単位の空間クロップ サイズ (左) と入力フレーム数 (右) の関数としてプロットします。空間解像度 (左) またはビデオの長さ (右) を増やすと、私たちが提案する分割時空間アテンションは、共同時空間アテンション スキームと比較して大幅な計算量の節約につながります。

4.2. 3D CNNとの比較

 このサブセクションでは、近年ビデオを理解するための主要な方法となっている 3D 畳み込みアーキテクチャと比較した TimeSformer の際立った特性を理解するための実証研究を実施します。私たちは 2 つの 3D CNN モデルに焦点を当てて比較します。1) ビデオ分類における最先端技術である SlowFast (Feichtenhofer et al、2019b)、2) I3D (Carreira & Zisserman、2017)。私たち自身のモデルと同様に、画像ベースの事前トレーニングに基づく利点が示されています。表 2 で2 つのネットワークを定量的に比較し、以下で重要な観察結果を強調します。

モデルの機能表 2 から、まず、TimeSformer は大きな学習能力 (パラメーターの数は 121.4M) を備えているにもかかわらず、推論コストが低い (TFLOPS で 0.59) ことがわかります。比較すると、SlowFast 8x8 R50 には、パラメータが 3,460 万しか含まれていないにもかかわらず、推論コストが高くなります (1.97 TFLOP)。同様に、I3D 8x8 R50 も、含まれるパラメーター (28.0M) が少ないにもかかわらず、推論コスト (1.11 TFLOPs) が大きくなります。これは、TimeSformer が大規模な学習を伴う設定に適していることを示唆しています。対照的に、最新の 3D CNN の計算コストは​​膨大であるため、効率を維持しながらモデルの能力をさらに高めることが困難になっています。

表2

表 2. TimeSformer と SlowFast および I3D の比較。TimeSformer にはより多くのパラメーターがあるにもかかわらず、推論コストが低いことがわかります。さらに、すべてのモデルが ImageNet-1K で事前トレーニングされているにもかかわらず、ビデオ データで TimeSformer をトレーニングするコストは、SlowFast や I3D に比べてはるかに低くなります。

ビデオトレーニング時間ImageNet 事前トレーニングの大きな利点は、ビデオ データに対して TimeSformer を非常に効率的にトレーニングできることです。対照的に、最先端の 3D CNN は、画像データセットで事前トレーニングされた場合でも、トレーニングにはるかにコストがかかります。表 2 では、Kinetics-400 での TimeSformer のビデオ トレーニング時間 (Tesla V100 GPU 時間) を SlowFast および I3D のビデオ トレーニング時間と比較しています。ImageNet-1K で事前トレーニングされた ResNet50 から始めて、SlowFast 8×8 R50 が Kinetics-400 で 75.6% の精度を達成するには、3840 Tesla V100 GPU 時間が必要です。同様の設定で I3D をトレーニングするには、73.4% の精度を達成するために 1440 Tesla V100 GPU 時間が必要でした。比較すると、同じく ImageNet-1K で事前トレーニングされた TimeSformer では、75.8% という高い精度を達成するのに 416 Tesla V100 GPU 時間しか必要としません (表 2 を参照)。さらに、TimeSformer とほぼ同じ計算量 (つまり 448 GPU 時間) でトレーニングするように SlowFast を制約すると、精度は 70.0% に低下します。同様に、同様の計算予算 (つまり、444 GPU 時間) を使用して I3D をトレーニングすると、精度は 71.0% と低くなります。これは、一部の最近の 3D CNN (Feichtenhofer et al、2019b; Feichtenhofer、2020) では、(ImageNet で事前トレーニングされた場合でも) 良好なパフォーマンスを達成するために長い最適化スケジュールが必要であるという事実を強調しています。対照的に、TimeSformer は、数百の GPU にアクセスできないラボにとって、より効率的な代替手段を提供します

事前トレーニングの重要性パラメータが多数あるため、モデルを最初からトレーニングすることは困難です。したがって、ビデオ データで TimeSformer をトレーニングする前に、ImageNet から学習した重みを使用して TimeSformer を初期化します。対照的に、SlowFast はビデオ データをゼロから学習できますが、トレーニング コストが非常に高くなります (表 2 を参照)。また、ImageNet の事前トレーニングを行わずに、TimeSformer を Kinetics-400 上で直接トレーニングすることも試みました。より長いトレーニング プランとより多くのデータ拡張を使用することで、ビデオ レベルの精度は64.8% とはるかに低くなりましたが、モデルを最初からトレーニングできることがわかりました。したがって、これらの結果に基づいて、その後のすべての研究の事前トレーニングに ImageNet を引き続き使用します (Deng et al、2009)。

 表 3 では、K400 および SSv2 で事前トレーニングされた ImageNet-1K と ImageNet-21K の利点を調べます。これらの実験では、モデルの 3 つのバリアントを使用します: (1) TimeSformerは、8×224×224 ビデオ クリップで実行されるモデルのデフォルト バージョンです。 (2) TimeSformer-HRは、高解像度のバリアントで動作します。最後に、(3)私たちのモデルのリモート構成であるTimeSformer-L は、フレーム サンプリング レート 1/4 の 96×224×224 ビデオ クリップで実行されます。

表3

表 3. Kinetics-400 (K400) および SomethingSomething-V2 (SSv2) に対する ImageNet-1K と ImageNet-21K の事前トレーニング効果の比較。K400 では、ImageNet-21K 事前トレーニングは、ImageNet-1K 事前トレーニングと比較して一貫してパフォーマンスの向上につながります。SSv2 では、ImageNet-1K と ImageNet-21K の事前トレーニングで同様の精度が得られました。

 表 3 の結果によると、ImageNet-21K 事前トレーニングは K400 にメリットをもたらし、ImageNet-1K 事前トレーニングと比較して一貫して高い精度を達成していることがわかります。一方、SSv2 では、ImageNet-1K と ImageNet-21K の事前トレーニングによって同様の精度が得られることが観察されています。SSv2 は複雑な時空間推論を必要とするのに対し、K400 は空間シーン情報に偏りがあるため、より大きな事前トレーニング データセットで学習された特徴からより多くの恩恵を受けるため、これは理にかなっています。

ビデオ データ サイズの影響ビデオ データ サイズがパフォーマンスに及ぼす影響を理解するために、K400 と SSv2 のさまざまなサブセット (データセット全体の {25%、50%、75%、100%) で TimeSformer をトレーニングしました。これらの結果を図 4 に示します。ここでは、同じサブセットでトレーニングされ、同じ事前トレーニング比較を使用してトレーニングされた SlowFast R50 (Feichtenhofer et al、2019b) および I3D R50 (Carreira & Zisserman、2017) と私たちの方法も比較しています。ImageNet-21K で事前トレーニングされた ResNet にアクセスできないため、3 つのアーキテクチャすべてに対して事前トレーニングされた ImageNet-1K を使用します。

 図 4 の結果は、K400 では、TimeSformer がすべてのトレーニング サブセットで他のモデルよりも優れたパフォーマンスを示していることを示しています。ただし、SSv2 では異なる傾向が観察されます。TimeSformer が最も強力なモデルとなるのは、完全なデータの 75% または 100% でトレーニングされた場合のみですこれは、SSv2 が K400 と比較してより複雑な時間パターンを学習する必要があるため、TimeSformer がこれらのパターンを効果的に学習するにはより多くの例が必要であることが考えられます。

図4

図 4. トレーニング ビデオの数に応じた Kinetics-400 (K400) と SomethingSomething-V2 (SSv2) の精度。K400 では、TimeSformer はあらゆる状況で最高のパフォーマンスを発揮しました。より複雑な時間推論が必要な SSv2 では、十分なトレーニング ビデオが使用された場合にのみ、TimeSformer が他のモデルよりも優れたパフォーマンスを発揮します。すべてのモデルは ImageNet-1K で事前トレーニングされています。

4.3. トークン数の変更

私たちのモデルのスケーラビリティにより、 ほとんどの 3D CNN よりも高い空間解像度と長いビデオで実行できますこれらの両方の側面が、Transformer に入力されるトークン シーケンスの長さに影響することに注意してください。具体的には、空間解像度が増加すると、フレームあたりのブロック数 (N) が増加します使用するフレームが増えると、入力マーカーの数も増加します利点を調査するために、これら 2 つの軸上のマーカーの数を個別に増やす実証研究を実施しました。

 調査結果を図 5 に報告します。空間解像度を (特定の点まで) 高めると、パフォーマンスが向上することがわかります同様に、入力セグメントの長さを増やすと、一貫した精度が向上することがわかりますGPU メモリの制限により、96 フレームを超えるクリップでモデルをテストできませんでした。それでも、96 フレーム セグメントの使用は、通常 8 ~ 32 フレームの入力処理に制限されている現在の畳み込みモデルとは大きく異なることを指摘しておきます

図5

図 5. ピクセル単位の空間クロップ サイズ (左) と入力フレーム数 (右) の関数としての、Kinetics-400 のフラグメント レベルの精度。

4.4. 場所の埋め込みの重要性

 学習した時空間位置の埋め込みの重要性を調査するために、(1) 位置の埋め込みなし、(2) 空間位置の埋め込みのみ、および (3) ) 時空間位置の埋め込みを使用して、TimeSformer のいくつかのバリアントも実験します。これらの結果を表 4 に報告します。これらの結果に基づいて、時空間位置埋め込みを使用したモデル バリアントが Kinetics-400 および Something-Something-V2 で最高の精度をもたらすことがわかります。興味深いことに、純粋な空間位置埋め込みを使用すると、Kinetics-400 では信頼できる結果が得られますが、Something-Something-V2 でははるかに悪い結果が得られることも観察されています。Kinetics-400 はより空間的に偏っているのに対し、Something-Something-V2 は複雑な時間的推論を必要とするため、これは理にかなっています。

表4

表 4. 位置埋め込みのアブレーション。時空間位置埋め込みを使用する TimeSformer のバージョンは、Kinetics-400 および SSv2 で最高の精度を実現しました。

4.5. 最先端技術との比較

 キネティクス-400 およびキネティクス-600。表 5 に、K400 検証セットに関する結果を示します。これらの実験では、ImageNet-21K で事前トレーニングされた TimeSformer を使用します。精度メトリクスに加えて、TFLOP で指定される推論コストも含まれます。以前のほとんどの方法は推論中に 10 の時間スライスと 3 つの空間クリッピング (合計 30 の時空間ビュー) を使用しますが、TimeSformer は 3 つのビュー (3 つの空間クリッピング) のみを使用して信頼性の高いパフォーマンスを実現し、その精度によって推論コストが削減されることに注目します。当社のリモート バリアント TimeSformer-L は、80.7% というトップ 1 の精度を達成します。さらに、デフォルトの TimeSformer は、最近の最先端モデルの中で推論コストが最も低くなります。ただし、それでも 78.0% という確かな精度を実現しており、多くの高価なモデルよりも優れています。

表5

表 5. Kinetics-400 のビデオレベルの精度。

 また、Kinetics-400 (8 個の Tesla V100 GPU を使用) 上の 20K 検証ビデオで実際の推論ランタイムを測定しました。SlowFast では推論が完了するまでに 14.88 時間かかりますが、TimeSformer、TimeSformer-HR、TimeSformer-L ではそれぞれ 36 分、1.06 時間、2.6 時間かかります。したがって、SlowFast と TimeSformer-L は TFLOP の点ではコスト的には同等ですが、TimeSformer のすべてのバージョンの実行時間は実際にははるかに短くなります

 表 6 には、Kinetics-600 での結果も示しています。Kinetics-400 と同様に、TimeSformer がこのベンチマークで良好なパフォーマンスを示し、以前のすべての方法を上回っていることがわかります。

表6

表 6. Kinetics-600 のビデオレベルの精度。

 最後に、図 6 では、推論中に複数の時間スライス (それぞれ空間クリップを持つ) を使用した場合の効果を調べますK ∈ { 1 , 3 , 5 , 10 } K\in\left\{1,\ 3,\ 5,\ 10\right\} を使用します。K{ 1  3  5  10 }テスト用のタイム スライス描画精度。私たちのモデルを X3D (Feichtenhofer, 2020) および SlowFast (Feichtenhofer et al, 2019b) と比較します。X3D と SlowFast には複数の (≥ 5 ≥ 5)5 ) 最高の精度を達成するために断片化します。対照的に、当社のリモート バリアント TimeSformer-L は、単一のクリップで約 12 秒の Kinetics ビデオにまたがることができるため、最適なパフォーマンスを実現するために複数のクリップを必要としません

図6

図 6. Kinetics-400 のビデオレベルの精度と推論中に使用されるタイムスライスの数。TimeSformer-L は、少数のフラグメントを使用して優れた精度を実現し、低い推論コストで強力なパフォーマンスを実現します。

サムシング-サムシング-V2 & ダイビング-48表 7 では、SSv2 と Diving-48 でのモデルも検証しています。ImageNet-21K の事前トレーニングでは SSv2 の精度が向上しないため (表 3 を参照)、この場合は ImageNet-1K で事前トレーニングされた TimeSformer を使用します。これにより、ImageNet-1K で事前トレーニングされた ResNet を使用して、この比較の他のすべてのモデルに同じ事前トレーニングを適用することもできます。私たちの結果は、TimeSformer がこのデータセットの最良のモデルよりも精度が低いことを示しています。ただし、モデルがまったく異なる設計を使用していることを考慮すると、これらの結果は、 SSv2 などの時間のかかる困難なデータセットに対しても TimesSformer が有望なアプローチであることを示していると考えられます表 7 では、別の「時間集約型」データセット Diving-48 での手法も示しています。Diving-48 タグの以前のバージョンに関する問題が最近発見されたため、ここでは複製された SlowFast 16×8 R101 モデルとのアプローチのみを比較します。私たちの結果は、TimeSformer のパフォーマンスが SlowFast よりも大幅に優れていることを示しています。

表7

表 7. Something-Something-V2 および Diving-48 のビデオ レベルの精度。∗∗ 以前に公開された結果で使用されている Diving-48 ラベルに問題があるため、私たちの方法を複製された SlowFast 16×8 R101 モデルとのみ比較します。すべてのモデルは ImageNet-1K に保存されます。

4.6. 長いビデオのモデリング

 最後に、HowTo100M (Miech et al、2019) を使用して、長期ビデオ モデリング タスクにおける TimeSformer のパフォーマンスを評価します。HowTo100M は、調理、修理、芸術作品の作成など、23,000 を超えるさまざまなタスクを実行する人間を示す約 100 万本の教育 Web ビデオを含む教育ビデオ データセットです。これらのビデオの平均時間は約 7 分で、これは標準的なアクション認識ベンチマークのビデオの長さよりも長くなります。各 HowTo100M ビデオには、ビデオ内で示されているタスク (23,000 カテゴリの 1 つ) を示すラベルがあり、教師ありトレーニングに使用できます。したがって、これは、長期間にわたって示されるアクティビティを識別するモデルの能力を評価するための優れたベンチマークとなります。

 この評価では、少なくとも 100 個のビデオ例があるカテゴリのみを考慮します。これにより、HowTo100M のサブセットが得られ、1,059 のタスク カテゴリにわたる 120,000 のビデオに対応します。このコレクションを 85,000 のトレーニング ビデオと 35,000 のテスト ビデオにランダムに分割しました。

 結果を表 8 に示します。ベースラインとして、SlowFast R101 の 4 つのバリエーションを使用します。これらはすべて、フレーム レート 1/32 でサンプリングされたビデオ クリップで動作しますが、フレーム数は異なります (8、32、64、96)。ImageNet-21K で事前トレーニングされた ViT から始まる、TimeSformer にも同じ 4 つの構成を使用します。この比較のすべてのモデルは Kinetics-400 で事前トレーニングされ、その後 HowTo100M で微調整されました。

表8

表 8. HowTo100M における長期タスクの分類。数分間のビデオの場合、目標は、ビデオに示されている長期的なタスク (朝食の準備、部屋の掃除など) を予測することです。このタスクでは、SlowFast と TimeSformer のいくつかのバリアントを評価しました。「個別セグメント範囲」は、1 つのセグメントがまたがる秒数を表します。「#Test Clip」は、推論中にビデオ全体をカバーするために必要なクリップの平均数です。この比較のすべてのモデルは、Kinetics-400 で事前トレーニングされました。

 推論中、メソッドごとに、ビデオの時間範囲全体をカバーするために必要な数の重複しないタイム クリップをサンプリングします。たとえば、1 つのクリップが 8.5 秒にわたる場合、410 秒のビデオをカバーするために 48 個のテスト クリップをサンプリングします。ビデオレベルの分類は、セグメント予測を平均することによって実現されます。

 表 8 の結果から、同じ単一フラグメントのカバレッジにおいて、TimeSformer が対応する SlowFast よりも 8 ~ 11% 優れていることがわかります。また、距離が長い TimeSformers のパフォーマンスが優れていることも観察されています。つまり、距離が最も長いバリアントが最高のビデオ レベルの分類精度を達成しています。これらの結果は、私たちのモデルが長期間のビデオ モデリングを必要とするタスクに適していることを示しています。

 また、ImageNet-1K および ImageNet21K で事前トレーニングされた ViT から直接 TimeSformer を微調整することも試みました (Kinetics-400 トレーニングをスキップ)。ImageNet-1K のみで事前トレーニングした場合、モデルは 8、32、64、96 フレーム入力に対してそれぞれ 52.8、58.4、59.2、59.4 というトップ 1 の精度を達成したことを報告します。ImagNet21K の事前トレーニングを考慮すると、TimeSformer は 8、32、64、および 96 フレーム入力に対してそれぞれ 56.0、59.2、60.2、および 62.1 というトップ 1 の精度を生成します。これらの結果は、使用する事前トレーニング データセットに関係なく、モデルが長期的な依存関係を効果的に活用できることを示しています。

4.7. 追加のアブレーション

小型および大型のトランスフォーマー「Base」ViT モデル (Dosovitskiy et al、2020) に加えて、「Large」ViT も実験しました。これにより、Kinetics-400 と Something-Something-V2 の両方で 1% 悪い結果が生じることが報告されています。「ベース」モデルにはすでに 1 億 2,100 万のパラメーターがあることを考えると、現在のデータセットはモデル容量のさらなる増加を正当化できるほど十分な大きさではないのではないかと考えられます。また、「Small」ViT バリアントも試しましたが、デフォルトの「Base」ViT モデルよりも精度が約 5% 悪くなりました。

パッチサイズが大きくなりますまた、異なるパッチ サイズ、つまりP = 32 P=32も試しました。P=32私たちのモデルのこのバリアントは、P = 16を使用した場合よりも優れた結果を生成することを報告します。P=デフォルトのバリアント16は約 3% 異なります。P = 32 P=32と推測しますP=32というパフォーマンスの低下は、空間粒度の低下によるものです。PPはトレーニングしていませんP値が 16 より低いモデルは、計算コストがはるかに高いためです。

時空間的自己注意の順序私たちが提案する「時空間分割注意」スキームは、時間的注意と空間的注意を順番に適用します。ここでは、時空間的注意の順序を逆にする(つまり、空間的注意を最初に適用し、次に時間的注意を適用する)ことが結果に影響を与えるかどうかを調査しました。最初に空間的注意を適用し、次に時間的注意を適用すると、Kinetics-400 と Something-Something-V2 の精度が 0.5% 低下することが報告されています。並行時空の自己注意も試しました。私たちは、これが私たちが採用した「時空間分割注意」スキームよりも 0.4% 精度が低いことを報告しています。

4.8. 定性的結果

 学習された時空間的注意を視覚化します。図 7 に、Something-Something-V2 ビデオに TimeSformer を適用することで得られた時空間的注意の視覚化を示します。学習された注意を視覚化するために、(Abnar & Zuidema、2020) で提案された注意ロールアウト スキームを使用します。私たちの結果は、TimeSformer がビデオ内の関連領域に焦点を当てて、複雑な時空間推論を実行することを学習することを示しています。たとえば、モデルは、表示されている場合は手の構成に焦点を当て、非表示の場合はオブジェクトの構成のみに焦点を当てていることがわかります。

図7

図 7. Something-Something-V2 上の出力トークンから入力空間への時空間的注意の視覚化。私たちのモデルは、時空間推論を実行するためにビデオの関連部分に焦点を当てることを学習します。

 学習された特徴の埋め込みを視覚化します。図 8 では、Something-Something-V2 で TimeSformer によって学習された機能も視覚化しています。視覚化は t-SNE (van der Maaten & Hinton、2008) を使用して行われ、各点がビデオを表し、異なる色が異なるアクション カテゴリを表します。この図に基づいて、分散時空間注意を持つ TimeSformer は、空間的注意または ViT のみを持つ TimeSformer と比較して、より意味的に分離可能な特徴を学習することが観察されます(Dosovitskiy et al、2020)。

図8

図 8. t-SNE を使用した Something-Something-V2 の機能の視覚化 (van der Maaten & Hinton、2008)。各ビデオは点として視覚化されます。同じアクション カテゴリに属する​​ビデオは同じ色になります。空間的注意または ViT のみを備えた TimeSformer と比較して、分散時空間的注意を備えた TimeSformer は、より意味的に分離可能な特徴を学習します (Dosovitskiy et al、2020)。

5。結論

この研究では、畳み込みベースのビデオ ネットワークの確立されたパラダイムと比較して、ビデオ モデリングに対する根本的に異なるアプローチである TimeSformer を紹介します。私たちは、特に時空間的自己注意に基づいて構築された効率的でスケーラブルなビデオ アーキテクチャを設計できることを実証します。私たちのアプローチは、(1) 概念的にシンプルで、(2) 主要なアクション認識ベンチマークで最先端の結果を達成し、(3) トレーニングと推論が低コストで、(4) 1 つ以上のクリップに適用できます。これにより、長期間のビデオ モデリングが可能になります。将来的には、アクションのローカリゼーション、ビデオの字幕、質問応答など、他のビデオ分析タスクにもアプローチを拡張する予定です。

付録

A. 実装の詳細

 TimeSformer 実装は、PySlowFast (Fan et al、2020) および pytorch-image-models (Wightman、2019) パッケージを使用して構築されています。以下では、モデルのトレーニングと推論の手順に関する具体的な実装の詳細について説明します。

トレーニング初期学習率 0.005 を 15 エポックの間、11 番目と 14 番目のエポックで 10 で割ってモデルをトレーニングします。トレーニング中に、まずビデオの短い辺のサイズを[256, 320] [256, 320]に変更します。[ 256 320 ]次に、サイズ変更されたビデオから 224×224 のクロップをランダムにサンプリングします。高解像度モデル TimeSformer-HR の場合、ビデオの短い辺のサイズを[448, 512] [448, 512][ 448 512 ] を選択し、448×448 のクロップをランダムにサンプリングします。フレーム レート 1/32 の全長ビデオからクリップをランダムにサンプリングします。バッチサイズは 16 に設定されています。32 GPU で同時 SGD を使用してすべてのモデルをトレーニングします。モーメンタムは 0.9 に設定され、ウェイト減衰は 0.0001 に設定されます。

 特に明記されていない限り、実験では「Base」ViT モデルを使用します (Dosovitskiy et al、2020)。各ブロックの時間的および空間的注目層は、ViT の対応する注目層から取得された同じ重みで初期化されます。

推論最初のドラフトで説明したように、推論中にビデオの中央にある時間セグメントをサンプリングしました。ビデオの短い空間エッジを 224 ピクセル (TimeSformer-HR の場合は 448 ピクセル) にスケーリングし、より大きな空間範囲をカバーするために 224 × 224 (TimeSformer-HR の場合は 448 × 448) のサイズに 3 回トリミングしました。最終的な予測は、これら 3 つの予測のソフトマックス スコアを平均することによって取得されます。

 他のモデルも比較しています。I3D (Carreira & Zisserman、2017) と SlowFast (Feichtenhofer et al、2019b) をトレーニングするには、元の論文で使用されたトレーニング プロトコルを使用します。I3D の場合、2D ImageNet CNN を使用して初期化し、基本学習率 0.01 で 118 エポックの間トレーニングし、44 番目と 88 番目のエポックで 10 で割ります。Goyal et al. (2017a) の線形スケーリング レシピに従い、32 GPU で同時 SGD を使用します。モーメンタムを 0.9 に、ウェイト減衰を 0.0001 に設定します。バッチサイズは 64 に設定されています。SlowFast モデルの場合、ImageNet 重みから初期化されるときに同じトレーニング プロトコルを使用します。SlowFast を最初からトレーニングする場合、著者が説明したトレーニング プロトコルを使用します (Feichtenhofer et al、2019b)。より具体的には、この場合、初期学習率が 0.1 に設定されたコサイン学習率スケジュールを使用して、トレーニングが 196 エポックに対して実行されます。最初の 34 エポックでは、学習率 0.01 の線形ウォームアップを使用します。ドロップアウト 0.5 は、最終分類層の前に使用されます。運動量は 0.9、重み減衰は 0.0001、バッチ サイズは 64 に設定されます。以前と同様に、線形スケーリング アプローチを採用します (Goyal et al、2017a)。

データセットKinetics-400 (Carreira & Zisserman、2017) には、400 の人間の行動カテゴリーをカバーする 240,000 のトレーニング ビデオと 20,000 の検証ビデオが含まれています。Kinetics-600 (Carreira et al、2018) には、600 のアクション カテゴリをカバーする 392,000 のトレーニング ビデオと 30,000 の検証ビデオがあります。SomethingSomething-V2 (Goyal et al、2017b) には、174 のアクション カテゴリをカバーする 170,000 のトレーニング ビデオと 25,000 の検証ビデオが含まれています。最後に、Diving-48 (Li et al、2018) には、48 のきめ細かいダイビング カテゴリをカバーする 16K のトレーニング ビデオと 3K のテスト ビデオがあります。これらすべてのデータセットについて、主要なパフォーマンス指標として標準の分類精度を使用します。

参考文献

Abnar, S. および Zuidema, W. 変圧器における注意の流れの定量化、2020 年
。Ba, LJ、Kiros, JR、および Hinton, GE 層の正規化。CoRR、2016。Bello
, I.、Zoph, B.、Le, Q.、Vaswani, A.、および Shlens, J. 畳み込みネットワークを強化することに注意してください。2019 IEEE/CVF International Conference on Computer Vision、ICCV、2019 年
。Bertasius, G. および Torresani, L. マスク伝播を使用したビデオ内のオブジェクト インスタンスの分類、セグメント化、および追跡。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE カンファレンス、2020 年 6 月。
ブラウン、TB、マン、B.、ライダー、N.、サブビア、M.、カプラン、J.、ダリワル、P.、ニーラカンタン、A.、シャム、P.、サストリー、G.、アスケル、A.、アガルワル、S.、Herbert-Voss、A.、Krueger、G.、Henighan、T.、Child、R.、Ramesh、A.、Ziegler、DM、Wu、J.、Winter、C.、Hesse、C.、 Chen, M.、Sigler, E.、Litwin, M.、Gray, S.、Chess, B.、Clark, J.、Berner, C.、McCandlish, S.、Radford, A.、Sutskever, I.、言語モデルは数回で学習できるものです。2020.
Carion, N.、Massa, F.、Synnaeve, G.、Usunier, N.、Kirillov, A.、Zagoruyko, S. トランスフォーマーを使用したエンドツーエンドの物体検出。2020 年の欧州会議コンピューター ビジョン (ECCV) にて。
Carreira、J. と Zisserman、A. Quo vadis、行動認識? 新しいモデルと動力学データセット。2017 IEEE Con​​ference on Computer Vision and Pattern Recognition、CVPR 2017、米国ハワイ州ホノルル、2017 年 7 月 21 ~ 26 日、2017 年。Carreira, J.、Noland, E.、Banki-
Horvath, A.、Hillier, C. 、Zisserman、A. kinetics-600 についての短いメモ。CoRR、2018。Chen
、MX、Firat、O.、Bapna、A.、Johnson、M.、Macherey、W.、Foster、G.、Jones、L.、Schuster、M.、Shazeer、N.、Parmar、 N.、Vaswani, A.、Uszkoreit, J.、Kaiser, L.、Chen, Z.、Wu, Y.、および Hughes, M. 両方の長所: ニューラル機械翻訳の最近の進歩を組み合わせます。計算言語学協会の第 56 回年次総会の議事録。計算言語学協会、2018a。
Chen, Y.、Kalantidis, Y.、Li, J.、Yan, S.、および Feng, J. A^2nets: 二重注意ネットワーク。神経情報処理システムの進歩 31、2018b。
Chen, Y.、Fan, H.、Xu, B.、Yan, Z.、Kalantidis, Y.、Rohrbach, M.、Yan, S.、および Feng, J. オクターブをドロップ: 畳み込みニューラルにおける空間冗長性の削減オクターブコンボリューションを備えたネットワーク。コンピューター ビジョンに関する IEEE/CVF 国際会議 (ICCV) の議事録、2019 年 10 月。Child
, R.、Gray, S.、Radford, A.、Sutskever, I. スパース トランスフォーマーを使用した長いシーケンスの生成。CoRR、2019。Cordonnier
, J.、Loukas, A.、および Jaggi, M. 自己注意層と畳み込み層の関係について。第 8 回学習表現に関する国際会議、ICLR 2020、エチオピア、アディスアベバ、2020 年 4 月 26 ~ 30 日。
Dai, Z.、Yang, Z.、Yang, Y.、Carbonell, J.、Le, Q.、および Salakhutdinov, R. Transformer-XL: 固定長のコンテキストを超えた注意深い言語モデル。計算言語学協会第 57 回年次総会議事録、2019 年
。Deng, J.、Dong, W.、Socher, R.、Li, L.、Kai Li、および Li Fei-Fei。Imagenet: 大規模な階層型画像データベース。2009 年のコンピューター ビジョンとパターン認識に関する IEEE 会議、248 ~ 255 ページ、2009 年。doi: 10.1109/CVPR。2009.5206848。
Devlin, J.、Chang, M.-W.、Lee, K.、Toutanova, K. Bert: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。arXiv プレプリント arXiv:1810.04805、2018。
Devlin, J.、Chang, M.-W.、Lee, K.、Toutanova, K. BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。計算言語学協会北米支部の 2019 年会議議事録: 人間の言語技術、第 1 巻 (長文および短文)、2019 年。Dosovitskiy, A.、Beyer, L.、Kolesnikov, A.、Weissenborn
、 D.、Zhai、X.、Unterthiner、T.、Dehghani、M.、Minderer、M.、Heigold、G.、Gelly、S.、Uszkoreit、J.、および Houlsby, N. 画像は 16x16 ワードの価値があります。大規模な画像認識用のトランスフォーマー。CoRR、2020。Fan
、H.、Li、Y.、Xiong、B.、Lo、W.-Y.、および Feichtenhofer、C. Pyslowfast。https://github.com/facebookresearch/slowfast、2020 年。
Fan, Q.、Chen, C.-FR、Kuehne, H.、Pistoia, M.、および Cox, D. 多ければ少ないほど: 大きな小さなネットワークと深さ方向の時間集約による効率的なビデオ表現の学習。In Advances in Neural Information Processing Systems、volume 32、2019。Feichtenhofer
, C. X3d: 効率的なビデオ認識のためのアーキテクチャの拡張。CVPR、pp. 200–210、2020。Feichtenhofer
, C.、Fan, H.、Malik, J.、および He, K. ビデオ認識用の低速ネットワーク。コンピュータ ビジョンに関する IEEE/CVF 国際会議 (ICCV) の議事録、2019a。
Feichtenhofer, C.、Fan, H.、Malik, J.、He, K. ビデオ認識用の低速ネットワーク。2019 年のコンピューター ビジョンに関する IEEE/CVF 国際会議、ICCV、2019b。
Gavrilyuk, K.、Sanford, R.、Javan, M.、および Snoek、グループ アクティビティ認識用の CGM アクター トランスフォーマー。2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition、CVPR、2020。Girdhar
, R.、Carreira, J.、Doersch, C.、および Zisserman, A. ビデオ アクション トランスフォーマー ネットワーク。コンピュータ ビジョンとパターン認識に関する IEEE カンファレンス、CVPR、2019 年。
Goyal, P.、Dollár, P.、Girshick, R.、Noordhuis, P.、Wesolowski, L.、Kyrola, A.、Tulloch, A.、Jia 、Y.、および He、K。正確な、大規模なミニバッチ sgd: 1 時間で imagenet をトレーニングします。arXiv プレプリント arXiv:1706.02677、2017a。
ゴヤル、R.、カホウ、SE、ミハルスキー、V.、マテルジンスカ、J.、ウェストファル、S.、キム、H.、ヘネル、V.、フルント、I.、ヤニロス、P.、ミュラー・フライタグ、M. 、Hoppe, F.、Thurau, C.、Bax, I.、および Memisevic, R. 視覚的な常識を学習および評価するための「なんとか」ビデオ データベース。CoRR、2017b。
Ho, J.、Kalchbrenner, N.、Weissenborn, D.、Salimans, T. 多次元変換器における軸方向の注意。CoRR、2019。Hu
, H.、Gu, J.、Zhang, Z.、Dai, J.、および Wei, Y. 物体検出のための関係ネットワーク。2018 IEEE Con​​ference on Computer Vision and Pattern Recognition、CVPR、2018年
。Huang, Z.、Wang, X.、Huang, L.、Huang, C.、Wei, Y.、Liu, W. Ccnet: Criss-crossセマンティックセグメンテーションに注意してください。2019年。
Jiang, B.、Wang, M.、Gan, W.、Wu, W.、および Yan, J. Stm: アクション認識のための時空間および動きのエンコーディング。コンピューター ビジョンに関する IEEE/CVF 国際会議 (ICCV) の議事録、2019 年 10 月
。Kwon, H.、Kim, M.、Kwak, S.、および Cho, M. Motionsqueeze: ビデオ理解のためのニューラル モーション機能学習。ECCV、2020 年。Le
, H.、Sahoo, D.、Chen, N.、および Hoi, S. エンドツーエンドのビデオ接地対話システム用のマルチモーダル変換ネットワーク。計算言語学協会第 57 回年次総会議事録、2019 年。Li
, L.、Chen, Y.-C.、Cheng, Y.、Gan, Z.、Yu, L.、および Liu, J. Hero : ビデオ + 言語のオムニ表現の事前トレーニング用の階層型エンコーダー。arXiv プレプリント arXiv:2005.00200、2020a。
Li, Y.、Li, Y.、および Vasconcelos, N. Resound: 表現バイアスのない行動認識に向けて。欧州コンピューター ビジョン会議 (ECCV)、2018 年 9 月。Li
, Y.、Ji, B.、Shi, X.、Zhang, J.、Kang, B.、および Wang, L. Tea: 時間的励起と凝集行動認識用。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、2020 年 6 月 b。
Lin, J.、Gan, C.、Han, S. Tsm: ビデオを効率的に理解するための時間シフト モジュール。コンピューター ビジョンに関する IEEE 国際会議議事録、2019 年。Miech
, A.、Zhukov, D.、Alayrac, J.-B.、Tapaswi, M.、Laptev, I.、および Sivic, J. HowTo100M: Learning a数億のナレーション付きビデオクリップを視聴することによるテキストビデオの埋め込み。ICCVにて、2019年。
Ott, M.、Edunov, S.、Grangier, D.、および Auli, M. ニューラル機械翻訳のスケーリング。第 3 回機械翻訳会議議事録: 研究論文、2018 年。Parmar
, N.、Vaswani, A.、Uszkoreit, J.、Kaiser, L.、Shazeer, N.、Ku, A.、および Tran, D.イメージトランスフォーマー。Dy、JG および Krause、A. (編)、第 35 回機械学習国際会議議事録、ICML、2018 年。Qiu, Z.、Yao,
T.、Ngo, C.-W.、Tian, X. 、および Mei, T. ローカルおよびグローバルな拡散による時空間表現の学習。CVPR にて、2019 年
。Radford, A.、Narasimhan, K.、Salimans, T.、Sutskever, I. 生成的事前トレーニングによる言語理解の向上。2018.
Radford, A.、Wu, J.、Child, R.、Luan, D.、Amodei, D.、Sutskever, I. 言語モデルは教師なしのマルチタスク学習者です。2019年。
Ramachandran, P.、Parmar, N.、Vaswani, A.、Bello, I.、Levskaya, A.、および Shlens, J. ビジョン モデルにおけるスタンドアロンの自己注意。『神経情報処理システムの進歩』、68–80 ページ、2019 年
。Sevilla-Lara, L.、Zha, S.、Yan, Z.、Goswami, V.、Feiszli, M.、および Torresani, L. 時間のみ言えること: 時間モデリングのための時間データの発見。In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)、pp. 535–544、2021 年 1 月。Simonyan,
K. および Zisserman, A. 大規模画像認識のための非常に深い畳み込みネットワーク。ICLR、2015 年
。Stroud, J.、Ross, D.、Sun, C.、Deng, J.、および Suktankar, R. D3d: ビデオ アクション認識のための蒸留された 3D ネットワーク。コンピューター ビジョンのアプリケーション (WACV) に関する IEEE/CVF 冬季会議議事録、2020 年 3 月。
Sun, C.、Myers, A.、Vondrick, C.、Murphy, K.、および Schmid, C. Videobert: ビデオと言語表現学習のための共同モデル、2019 年。Szegedy, C.、Liu, W.、
Jia 、Y.、Sermanet, P.、Reed, S.、Anguelov, D.、Erhan, D.、Vanhoucke, V.、および Rabinovich, A. 畳み込みをさらに深くします。Computer Vision and Pattern Recognition (CVPR)、2015 年
。Teed, Z. および Deng, J. RAFT: オプティカル フローのための反復的な全ペア フィールド変換。コンピューター ビジョン - ECCV 2020 - 第 16 回欧州会議、英国グラスゴー、2020 年 8 月 23 ~ 28 日、議事録、パート II、2020。Tran, D.、Wang, H.、Torresani,
L.、Ray, J.、LeCun 、Y.、および Paluri、M。行動認識のための時空間畳み込みを詳しく見てみましょう。2018 IEEE Con​​ference on Computer Vision and Pattern Recognition、ソルトレイクシティ、米国、2018年、2018年。
Tran, D.、Wang, H.、Feiszli, M.、および Torresani, L. チャネル分離畳み込みネットワークによるビデオ分類。ICCV、pp. 5551–5560、2019。van
der Maaten, L. および Hinton, G. t-SNE を使用したデータの視覚化。Journal of Machine Learning Research、9: 2579–2605、2008。URL http://www.jmlr.org/papers/v9/vandermaaten08a.html。Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN、Kaiser, L. u.、および Polosukhin, I. 必要なのは注意力だけです。神経情報処理システムの進歩において、2017a。
Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN、Kaiser, L. u.、および Polosukhin, I. 必要なのは注意力だけです。神経情報処理システムの進歩 30. 2017b.
Wang, H.、Tran, D.、Torresani, L.、および Feiszli, M. 相関ネットワークを使用したビデオ モデリング。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE/CVF 会議議事録、2020 年 6 月 a。
Wang, H.、Zhu, Y.、Green, B.、Adam, H.、Yuille, AL、および Chen, L. Axial-deeplab: パノプティック セグメンテーションのためのスタンドアロンの軸方向注意。コンピューター ビジョン - ECCV 2020 - 第 16 回欧州会議、2020b。
Wang, X.、Girshick, R.、Gupta, A.、He, K. 非ローカル ニューラル ネットワーク。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、2018 年 6 月 a。
Wang, X.、Girshick, RB、Gupta, A.、He, K. 非ローカル ニューラル ネットワーク。2018 IEEE Con​​ference on Computer Vision and Pattern Recognition、CVPR 2018、米国ユタ州ソルトレイクシティ、2018 年 6 月 18 ~ 22 日、2018b。
Wang, X.、Xiong, X.、Neumann, M.、Piergiovanni, AJ、Ryoo, MS、Angelova, A.、Kitani, KM、および Hua, W. アテンションナス: ビデオ分類のための時空間アテンション セル検索。コンピューター ビジョン - ECCV 2020 第 16 回欧州会議、英国グラスゴー、2020 年 8 月 23 ~ 28 日、議事録、パート VIII、2020c。
Weissenborn, D.、Täckstrom, O.、および Uszkoreit, J. 自己回帰ビデオ モデルのスケーリング。第 8 回学習表現国際会議、ICLR、2020 年。
ワイトマン、R. パイトーチのイメージモデル。https://github.com/rwightman/pytorch-image-models、2019. Xie, S.、Sun, C.、Huang, J.、Tu, Z.、および Murphy, K. 時空間特徴学習の再考: 速度精度トレードビデオ分類の -off。コンピューター ビジョン - ECCV 2018 - 第 15 回欧州会議、ドイツ、ミュンヘン、2018 年 9 月 8 ~ 14 日、議事録、パート XV、318 ~ 335 ページ、2018 年。doi: 10.1007/ 978-3-030-01267-0_19。URL https://doi.org/10.1007/978-3-030-01267-0_19。
Yang, Z.、Garcia, N.、Chu, C.、Otani, M.、中島 Y.、竹村 H. バートによるビデオ質問応答の表現。コンピュータ ビジョンのアプリケーションに関する IEEE 冬季会議、2020 年。
Zhao, H.、Jia, J.、Koltun, V. 画像認識のための自己注意の探求。2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition、CVPR、2020.
Zhou, L.、Zhou, Y.、Corso, JJ、Socher, R.、Xiong, C. によるエンドツーエンドの高密度ビデオ キャプションマスクされたトランス。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2018 年。

おすすめ

転載: blog.csdn.net/weixin_42475026/article/details/129703763