【论文分享】InternVideo: 生成学習と識別学習による一般的なビデオ基盤モデル

序文

本日翻訳された記事は、上海人工知能研究所の成果であり、複数のビデオデータセットに対してSOTA効果を実現しています。不適切な場合は、ネチズンは私を啓発することを歓迎します!

InternVideo: 生成学習と識別学習による一般的なビデオ ベース モデル

ここに画像の説明を挿入
図 1: 専用モデル [1 ~ 5] や基本モデル [6 ~ 9] を含む既存の最先端の手法と比較して、InternVideo は幅広いビデオ関連タスクを最先端の方法で実行します。 。比較の詳細については、セクション 4.3 を参照してください。v2t と t2v は、それぞれビデオからテキストへの取得とテキストからビデオへの取得を示します。STA、FHP、NLQ、SCOD、および MQ は、それぞれ、短期オブジェクト インタラクション予測、将来のハンド予測、自然言語クエリ、および状態変化検出 (状態) とモーメント クエリを表します。

概要

最近、基礎となるモデルは、コンピューター ビジョンにおけるさまざまな下流タスクで良好に実行されています。ただし、既存のビジョンベースのモデルのほとんどは、画像レベルの事前トレーニングと適応のみに焦点を当てており、動的で複雑なビデオレベルの理解タスクには制限されています。このギャップを埋めるために、生成的および識別的自己教師ありビデオ学習の両方の利点を活用することにより、一般的なビデオ基盤モデルである InternVideo を提案します。具体的には、InternVideo は、マスクされたビデオ モデリングとビデオ言語の対比学習を事前トレーニング目標として効率的に検討し、学習可能な方法でこれら 2 つの相補的なフレームワークのビデオ表現を選択的に調整して、さまざまなビデオ アプリケーションを改善します。追加の付加機能なしで、InternVideo は、ビデオ アクションの認識/検出、ビデオ言語の調整、オープンワールド ビデオ アプリケーションを含む 39 のビデオ データセットで最先端のパフォーマンスを実現します。

はじめに はじめに

基本モデルは、多数の知覚タスクに実用的なパラダイムを提供し、驚くほど良好な結果を達成するため、研究コミュニティでますます注目を集めています [10-12]。単純な適応またはゼロ/少数ショット学習を通じて、基礎となるモデルは大規模なネットワーク データから学習した一般表現を利用して、下流の設計とトレーニングのコストを大幅に削減すると同時に、大容量によって強力にサポートされます。基礎となるモデルは、知覚から認知を養い、一般的な視覚能力を獲得することが期待されています。

一連の視覚ベースのモデルが提案されている [7、13-21] ものの、画像タスクに比べて、ビデオ理解とその関連タスクは比較的研究が少なく、主に時空間におけるこれらのモデルの視覚的特徴の利点を検証するために行われています。代表。学術的な注目が比較的少ない理由は、1) ビデオ処理によって課せられる高い計算負荷、2) かなりの数の現在のビデオ ベンチマークが、画像サポート構造と対応する時間モデリングの外観特徴を利用することで対処できることであると推測されます。具体的には、同様の空間解像度と通常 16 の時間サンプリング比を考慮すると、ビデオ処理の時間次元は画像処理の時間次元より少なくとも 1 桁複雑です。現在の一部のビデオ データセットでは、特にマルチモーダル モデル CLIP [13] の台頭により、画像特徴単独または横方向時間モジュールと組み合わせて十分な結果が得られます。時間情報を考慮したそのさまざまなバリエーションは、いくつかのコアタスクで競争力のある、または最先端のパフォーマンスを達成します [5、22]。これを念頭に置くと、同時時空間学習を行うモデルは、研究開発コストと収益の間のスイートスポットではないようです。

さらに、ビデオアプリケーションの範囲が広いことを考慮すると、現在のビジョンベースのモデルの移植性はある程度制限されています。これらのモデル [6、8、23、24] は、動作理解タスク (例: 動作認識、時空間動作位置特定など) またはビデオ言語対応タスク (例: ビデオ検索、ビデオ質問応答など) のいずれかに焦点を当てています。 )。私たちは、これは彼らの学習スキームと、ビデオの理解を測定するための包括的なベンチマークの欠如に起因すると主張します。したがって、これらの研究 [6、8、23、24] は、時空間認識を実証するために、いくつかの特定のタスクに焦点を当てています。コミュニティは、より広範囲のドメインに適用できる一般的な基本モデルを期待しています。

この論文では、費用対効果の高い一般的なモデルである InternVideo を使用して、ビデオの基本モデルの研究を進めます。実現可能で効率的な時空間表現を構築するために、私たちは一般的なビデオ マスク モデリング [23、25] とマルチモーダル対比学習 [13、26] を研究します。ビデオ マスク モデリングはモーションの理解に焦点を当てていることに注意することが重要ですが、現在のデコーダによってもたらされるモデル サイズの制限には依然として検討の価値があります。マルチモーダル対比学習の場合、特定の時空間モデリングを無視しながら、豊富なセマンティクスをビデオ表現に埋め込みます。これらの課題に対処するために、これら 2 つの自己教師あり手法をモジュール設計での大規模学習に効率的に適用できるようにしました。

現在のビデオベースのモデルの一般化機能を大幅に拡張するために、これら 2 つの自己教師ありトレーニング モダリティを含む表現学習への統一アプローチを提案します。この一般的な表現を検証するために、体系的なビデオ理解ベンチマークを提案します。これには、アクションの理解、ビデオと言語の調整、およびオープンワールド ビデオ アプリケーションの評価が含まれます。これらは、一般的なビデオ認識の 3 つのコア機能であると考えられます。このシステムでは、まず 39 の公開データセットから代表的な 10 個のビデオタスクを選択し、これら 3 つのタイプに分類します。私たちの知る限り、InternVideo は、有望な転送可能性を実証し、これら 3 つの異なるタイプのビデオ タスクで最先端のパフォーマンスを達成する最初のビデオ ベースのモデルです。

InternVideo では、統一されたビデオ表現学習パラダイム (Unified Video Representation、UVR) を設計します。オートエンコーダー (MAE) を使用したマスクされたビデオ モデリングと、2 種類の表現のマルチモーダル対比学習を検討し、教師ありアクション分類でそれらを強化し、それらの間の相互表現学習に基づいてより良い表現を生成します。UVR は、コア ビデオ タスクで時間キャプチャを使用すると、ビデオ表現が画像表現よりも大幅に優れたパフォーマンスを発揮するだけでなく、トレーニングが効率的であることを経験的に示しています。その MAE はビデオの高い冗長性を利用し、トレーニングに少数の可視マーカーのみを使用します。一方、InternVideo のマルチモーダル学習は、ビデオのコントラスト トレーニング用に、既存の画像の事前トレーニングされたバックボーン構造を拡張します。これら 2 つのビデオ エンコーダーで教師付きトレーニングを行った後、これら 2 つのほぼフリーズしたエンコーダー間で特徴の調整を実行するためのクロスモデル アテンションを設計します。

統一されたビデオ表現の学習パラダイムに加えて、大規模なビデオベースのモデルの制御可能で効率的なトレーニングのための実践とガイダンスも提供します。私たちの取り組みには以下が含まれますが、これらに限定されません: 1) VideoMAE をスケーラブルにし、モデルとデータ スケールの観点からそのスケーラビリティを探求する; 2) 既存の画像事前トレーニング バックボーン構造を利用する方法に関する効率的かつ効果的なマルチモダリティ アーキテクチャ設計とトレーニング方法; 3 ) VideoMAE とマルチモーダル モデルの機能が相補的であることを経験的に発見し、異なる既存のモデルを調整することでより強力なビデオ表現を導き出す方法を研究します。特に:

• VideoMAE のスケーラビリティの研究では、トレーニング ビデオの適切なダイバーシティとスケーリングにより、使用されるビデオ エンコーダのスケーラビリティが向上することを実証しました。マスクされたオートエンコーダートレーニング設定を備えた新しい事前トレーニング済みデータセットでは、Kinetics-400 [27] での動作認識パフォーマンスは、ViT をベースからラージまで微調整することによって 81.01% から 85.35% に向上し、さらに 86.9% に達します。巨大な設定であり、[23] で報告されているパフォーマンスを上回り、大きな利点があります。VideoMAE のスケーラビリティにより、ビデオ ベース モデルの開発に使用できます。

• マルチモーダル学習に既存の基本モデルを使用するために、画像事前学習済みビジュアル トランスフォーマー [28] をビデオ表現学習に拡張します。このような転移学習には、広範な構造および最適化のカスタマイズ、またはローカルおよびグローバル時空間モジュールを使用したマルチモーダルな事前トレーニングが必要です。ローカル モジュールは、連続的かつ独立した空間的および時間的注意の計算を通じて時空間モデリングを分離します。同時に、グローバル モジュールは空間と時間におけるラベルの相互作用を計算します。実験により、この再利用設計が時空間表現の学習に有効であることが示されています。

• 自己教師付き事前トレーニングに加えて、ビデオ表現をさらに強化するために教師付きアクション認識を採用します。結果は、アクション認識がさまざまな下流アプリケーションに転送できる優れたソース タスクであることを示しています。

• 基本モデルを調和させるために、マスクされたビデオ エンコーダを単一の定式化として共同トレーニングするのではなく、相互表現学習を介してマルチモーダル エンコーダと統合します。MAE とマルチモーダル学習 (MML) の最適化に関しては、矛盾する可能性がありますが、それらの利点を損なうことなくそれらをどのように組み合わせるかは依然として未解決の問題です [29]。さらに重要なことは、対照学習を使用する MML では、より適切なコントラスト最適化を行うために多数のバッチが必要であるということです。これに MAE を追加すると、必然的に実装で多くの問題が発生することになります。トレーニングにおける敵対性の可能性を考慮して、MAE と MML を別々にトレーニングします。トレーニングが収束した後、提案されているクロスモデル アテンション (CMA) モジュールを使用して、それらの表現を動的に結合します。MAE と MML の中レベルの機能間のクロスアテンションを実現し、予測のために高レベルの機能を適応的に融合します。モデルレベルの表現相互作用段階では、MAE と MML によって個別にトレーニングされたバックボーン構造をフリーズし、教師あり学習で CMA を更新するために数エポックのみを使用します。実験では、これが MAE および MML の機能を活用するための計算上実行可能かつ効率的な方法であることが実証されています。

私たちは、提案したビデオベースのモデルを 10 のタスク (アクション認識、時空間アクションの位置特定、ビデオ質問応答、ビデオ検索などのコアタスクを含む 39 のデータセットをカバー) で検証し、すべての状態で各タスクを大幅に上回りました。 -最先端のメソッド。私たちは、観察と分析とともに、私たちの方法によって得られた全体的に優れた結果が、ビデオ理解の分野に新たなベンチマークを設定すると信じています。この論文の経験的証拠は、ビデオ知覚タスクと一部の高次タスク (知覚として定式化される) がビデオベースのモデルによってうまく解決でき、さまざまなアプリケーションにわたってパフォーマンスが重要なアプローチになるという確信を高めます。

要約すると、次の方法でビデオ ベース モデルに貢献します。

• マスクモデリングとコントラストモデリングを組み合わせた一般的なビデオ表現パラダイムを探索し、教師あり学習における軽量モデルの対話型学習を通じてそれらの表現を統合します。私たちは、生成トレーニングと対照トレーニングによって学習された機能が相互に補完し合い、独立してトレーニングされた場合よりも優れた結果を達成できることを実験的に示しています。

• マスクされたビデオ エンコーダは、モデルとデータ サイズに関して適切に調整できることがわかりました。私たちは、マルチモーダル学習に事前トレーニング済みの ViT 画像テキスト データを再利用し、トレーニングの負担を軽減し、ダウンストリーム パフォーマンスの向上を達成するための、プラグ可能なローカル時間およびグローバル時空間インタラクション モジュールを設計します。

• 体系的なビデオ理解のためのベンチマークを構築する最初の試みを行います。当社の汎用ビデオベース モデルは、このベンチマークのいくつかのコア タスク (動作認識における Kinetics-400 や Something-Something v2 など) について、39 のデータセットで最先端のパフォーマンスを達成しています。私たちは、特に一部の画像ベースのタスクにおいて、学習したビデオ表現が競合他社よりも優れたパフォーマンスを発揮し、視覚言語タスクを大幅にリードしていることを経験的に発見しました。これは、一般的なビデオ表現がビデオタスクにおいて中心的な役割を果たすことを示唆しています。私たちは、提案した方法とモデルのオープン性により、研究コミュニティが基礎となるモデルと機能に簡単にアクセスできるようになると信じています。

関連作業

イメージベースモデル現在のビジョン モデルのほとんどは、特定のタスクとドメインにのみ適用可能であり、トレーニングには手動でラベル付けされたデータセットが必要です。この問題に対処するために、最近の研究では視覚ベースのモデルが提案されています。CLIP [13] と ALIGN [14] は、ノイズの多い画像とテキストのペアの大規模な対比学習を使用してデュアル エンコーダ モデルをトレーニングし、強力なゼロショット転送のための堅牢な画像とテキストの表現を取得します。INTERN [12] は、多数の画像とテキストのペアや手動で注釈を付けた画像を使用して、自己教師ありの事前トレーニングを複数の学習段階に拡張します。CLIP と比較して、INTERN は線形プローブのパフォーマンスが向上し、下流の画像タスクのデータ効率が向上します。Florence [15] は、統合対照学習 [16] を使用してそれらを拡張し、異なる転送設定でさまざまな視覚タスクをサポートするために適応モデルを洗練しました。SimVLM [17] と OFA [18] は、生成目標を使用してエンコーダ/デコーダ モデルをトレーニングし、さまざまなマルチモーダル タスクでの競争力を実証します。さらに、CoCa [7] は、CLIP の対照学習と SimVLM の生成学習を統合します。最近、BeiT-3 [19] は、統合された BeiT [20] の事前トレーニング済みマルチパス トランスフォーマーを導入し、複数の視覚および画像言語タスクで最先端の転送結果を達成しました。

ビデオベースモデル以前の画像ベースのモデル [7、15] は、ビデオ認識 (特にキネティクス) でのみ有望なパフォーマンスを示していました。ビデオマルチモーダルタスクについては、VIOLET [30] がマスク言語とマスクビデオモデリングを組み合わせ、All-in-one [24] が共有バックボーンを備えた統合ビデオ言語事前トレーニングを提案し、LAVENDER [31] がマスク言語の統合モデリングタスクを組み合わせました。言語。マルチモーダル ベンチマークでは良好なパフォーマンスを示しますが、限られたビデオ テキスト データを使用してトレーニングされているため、動作認識などのビデオのみのタスクでは困難に直面します。対照的に、MERLOT Reserve [32] は、2,000 万のビデオ、テキスト、オーディオのペアを収集し、コントラスト スパン マッチングを介して共同ビデオ表現をトレーニングします。これにより、最先端のビデオ認識と視覚的常識的推論が実現されます。画像ベースのモデルと比較すると、現在のビデオベースのモデルは、限られたビデオおよびビデオ言語タスク、特に時間的位置特定などのきめの細かい時間的識別タスクのみをサポートしています。

自己監督による事前トレーニング最近、自己教師あり学習が急速に発展しています。事前トレーニング [33-37] 用のさまざまなプリセット タスクの設計に焦点を当てており、主に対照学習とマスク モデリングに分けることができます。対照学習では、さまざまなデータ拡張を使用して画像のさまざまなビューを生成し、その後、正のペアを近づけ、負のペアを遠ざけます。十分な情報を提供するネガティブ サンプルを維持するために、以前の方法は大きなメモリ バンクまたはバッチ サイズに依存していました [38-40]。BYOL [41] と SimSiam [42] は、負のサンプル要件を排除し、モデルの崩壊を避けるための精巧なトリックを考案しています。マスク モデリングの場合、目に見えるコンテキストからマスク予測を実行して、豊富な視覚表現を学習します。iGPT [43] は、マスクされたイメージ モデリング (MIM) について初めて言及したものです。BeiT [20] は視覚的なトークン予測に事前トレーニング済みトークナイザー [44] を使用することを提案し、MaskFeat [6] は手作りの画像記述子を予測し、MAE [25] は生のピクセルを直接再構築します。時空間表現学習に関しては、VideoMAE [23] と BEVT [45] がそれぞれ MAE と BeiT を時空間領域に拡張しています。

マルチモーダル事前トレーニング画像テキスト事前トレーニングの開発に始まり、特定の下流タスク向けに微調整を行う大規模なビデオテキスト事前トレーニングが、ビデオ言語分野の標準パラダイムになっています [26, 30, 32, 46-51] ]。先駆的な方法 [52、53] では、事前トレーニングされたビジョンおよび言語エンコーダーを使用して、オフラインのビデオとテキストの特徴を抽出しましたが、最近の方法 [9、24、26、46、54、55] では、エンドツーエンドのトレーニングの実現可能性が実証されました。さらに、一般的な方法には通常、マスクされた言語モデリング [31]、ビデオとテキストのマッチング [24]、ビデオとテキストの対照学習 [47]、ビデオとテキストのマスク モデリング [30] など、2 つまたは 3 つの事前トレーニング タスクが含まれます。

3 インターンビデオ

InternVideo は一般的なビデオ基本モデルであり、その学習方法と内部連携方法を図 2 に示します。構造的には、InternVideo はビジョン トランスフォーマー (ViT) [28] とそのバリアントである UniformerV2 [56] を採用しています。また、追加のローカル時空間モデリング モジュールが導入され、多層表現の相互作用が実現されます。InternVideo は、学習プロセス中に、自己監視 (マスク モデリングとマルチモーダル学習) と教師付きトレーニングを統合して、その表現を徐々に改善します。さらに、両方のタイプの自己教師あり学習の利点を探求しながら、その利点をさらに統合します。InternVideo は、学習可能な相互作用を通じてこれら 2 つのトランスフォーマーから新しい機能を動的に抽出し、生成プロセスと対照プロセスの両方から最善を尽くします。新しく統合された機能により、InternVideo は 10 の主流ビデオ タスクの 34 のベンチマークで新しいパフォーマンス記録を破り、最近の Ego4D コンペティションの 5 つのトラックでチャンピオンシップを獲得しました [57]。
ここに画像の説明を挿入
図 2 InterVideo の全体的なアーキテクチャ図

3.1 自己教師付きビデオによる事前トレーニング

InternVideo は、表現学習のための教師なしでマスクおよび対比トレーニングを実行します。[13, 23] に従って、ビデオ マスク モデリングは、動作認識や時間的動作位置特定などの動作識別に優れた機能を生成し、ビデオ言語対比学習により、注釈なしでテキスト内のビデオ セマンティクスを理解できるようになります。これら 2 つの最適化目標をより効果的に活用するために、構造の異なる 2 つのコンバーターを採用しています。最終的な表現は、これら 2 つのタイプの表現を適応的に集約することによって構築されます。

3.1.1 ビデオマスクモデリング

私たちは、VideoMAE [23] に関する研究で提案されたアプローチのほとんどに従い、図 3(a) に示すように、時空間モデリング用のビデオ エンコーダとして Vanilla Vision Transformer (ViT) を使用します。VideoMAE は、非対称エンコーダ/デコーダ構造を採用し、ビデオ再構築タスクに高度にマスクされたビデオ入力を使用します。使用されるエンコーダーとデコーダーは両方とも ViT です。デコーダのチャネル数はエンコーダの半分であり、デフォルトでは 4 ブロックです。具体的には、タイムストリップされたダウンサンプリングされたビデオ入力を重複しない 3D ブロックに分割し、それらを立方体埋め込みに線形に投影します。次に、これらの埋め込みに管状マスク (例: 90% スケール) を適用し、マスクされたビデオ モデリングの事前トレーニングのために非対称エンコーダー/デコーダー構造にフィードします。時空間相互作用をグローバルに記述するために、ViT では共同時空間注意 [58, 59] を採用し、すべての目に見えるトークンがグローバルに相互作用できるようにします。計算には少数のトークンのみが使用されるため、計算的に実行可能です。

3.1.2 ビデオ言語の比較学習

図 3(b) に示すように、ビデオ/画像とテキストの対比学習と、ビデオキャプションタスクの事前トレーニングを実施します。トレーニング効率を向上させるために、事前トレーニングされた CLIP [13] に基づいてマルチモーダル構造を構築します。オリジナルの ViT を直接使用する代わりに、より優れた、より効率的な時間モデリングを実現するビデオ エンコーダとして、提案された UniformerV2 [56] を使用します。さらに、クロスモーダル学習のために追加のトランスデコーダーを採用します。具体的には、[7, 60] に示されている典型的な整列してから融合するパラダイムに従います。まず、ビデオとテキストは別々にエンコードされます。次に、ビデオとテキストの特徴の埋め込みスペースが、コントラスト損失を使用して位置合わせされます。融合段階では、字幕前処理にクロスアテンションを使用して、字幕デコーダーをクロスモーダル フューザーとして適用します。このアライメントから融合のパラダイムは、モダリティを同じ単一の埋め込み空間にアライメントできることを保証し、検索などのタスクに有益であるだけでなく、モデルに異なるモダリティを組み合わせる機能を与え、質問などのタスクにも有益です。答える。字幕デコーダの導入により、元の CLIP の可能性が拡張され、マルチモーダル機能の堅牢性が向上します。

ここに画像の説明を挿入
図 3 トレーニング前段階、マスク学習とマルチモーダル学習の全体的なフレームワーク
ここに画像の説明を挿入
図 4 クロスモデル アテンション メカニズムを使用したモデル インタラクションの図

3.2 事前トレーニング後の教師ありビデオ 事前トレーニング後の教師ありビデオ

経験的に、アクション認識はビデオのダウンストリーム アプリケーションで良好に機能し、メタタスクとして広く検証されています [61、62]。したがって、マスクされたビデオ エンコーダーとマルチモーダル ビデオ エンコーダーに対して個別に教師ありアクション分類の事後事前トレーニングを実行し、さまざまなタスクのパフォーマンスを向上させます。これらのエンコーダの学習能力を高めるために、ビデオ エンコーダを微調整するための統合ビデオ ベンチマーク データセット Kinetics-710 (K710、詳細についてはセクション 4.1 を参照) を提案します。

マスクされたビデオ エンコーダー: 32 GPU を使用して、K710 のマスクされたビデオ エンコーダーを微調整しました。基本学習率とバッチ サイズに従って学習率を線形に調整します (つまり、lr = 基本学習率 × バッチ サイズ / 256)。DeepSpeedフレームワークを採用してメモリ使用量を節約し、トレーニングを高速化します。基本学習率を 0.001 に、ドロップ パス レートを 0.2 に、ヘッド ドロップアウト率を 0.5 に、リサンプリング [63] を 2 に、レイヤー減衰を 0.8 に設定し、40 エポックのトレーニングを行います。

マルチモーダル ビデオ エンコーダ: UniFormer [64] のトレーニング方法のほとんどに従います。最良の結果を得るために、デフォルトでバックボーン ネットワークとして CLIP-ViT [13] を採用します。これは、対照的な視覚言語によって事前に訓練された堅牢な表現を学習するためです。ViT-B/L の最後の 4 層にグローバル UniBlock を挿入し、多段階融合を実行します。基本学習率を 1e-5、リサンプリングを 1、バッチ サイズを 512 に設定し、40 エポックのトレーニングを行います。すべてのデータセットに対して解像度 224 のスパース サンプリング [65] を採用しています。事前トレーニング後の処理では、UniformerV2 [56] をビジョン エンコーダとして使用し、出力が元の CLIP モデルと同一になるように追加パラメータを初期化します。これは良好なゼロショット パフォーマンスにとって重要です。ビデオ字幕モジュールは、標準の 6 層トランスフォーマー デコーダーとそれに続く c = 768 の 2 層 MLP です。その他の設定は CLIP Large/14 のままです。

表 1: InternVideo の事前トレーニング中に使用されるデータセットの概要。
大規模なデータセットは、一般的な視覚の事前トレーニングに不可欠です。私たちの事前トレーニング データには、5 つの異なるドメインからの 1,200 万のビデオ クリップが含まれています。
ここに画像の説明を挿入

3.3 モデル間の相互作用

ビデオ マスク モデリングとビデオ言語の対比学習に基づいて統一されたビデオ表現を学習するために、図 4 に示すように、相互表現学習を実行し、クロスモデル アテンション モジュールを追加します。2 つのモデルを同時に最適化するのは計算量が多いため、マルチモーダル ビデオ エンコーダーの分類層とクエリ トークンを除く両方のバックボーンをフリーズし、新しく追加されたコンポーネントのみを更新します。さまざまな方法で学習した表現を調整するための、きめの細かい学習可能なモジュール (モデル間注意) をいくつか追加します。クロスモデル アテンション (CMA) は、標準のマルチヘッド クロス アテンション (MHCA) とフィードフォワード ネットワーク (FFN) で構成されます。マルチモーダル ビデオ エンコーダーからの中間トークンをキーと値として使用し、マスクされたビデオ エンコーダーからのトークンをクエリとして使用します。CMA から計算された新しいマーカーは、マルチモーダル ビデオ エンコーダーと段階的に調整される表現として表示されます。このプロセスは主に、マルチモーダルな知識をマスクされたビデオ エンコーダーの CMA に転送します。設計上の例外の 1 つは、最後の CMA モジュールのキーと値がマスクされたビデオ エンコーダーのマーカーから取得され、マルチモーダル ビデオ エンコーダーからクラス マーカーをクエリすることです。したがって、クラス ラベルはマスク エンコーダからのラベルに従って更新されます。ユニモーダルな知識をマルチモーダル ビデオ エンコーダーの CMA に転送します。この観点から、マスクされたビデオエンコーダのすべてのステージの機能とマルチモーダルビデオエンコーダの最終ステージの機能は、アクション認識の監視の下で強化され、相互に調整されます。最後に、学習可能な線形結合を使用して 2 つの予測スコアを動的に融合します。

4つの実験

まず実験構成 (セクション 4.1) について詳しく説明し、次にセクション 4.3 で、3 種類のタスク (アクション理解、ビデオと言語の調整、オープンな理解) をカバーする、提案されたビデオ理解ベンチマークでの InternVideo のダウンストリーム パフォーマンスを示します。

4.1 事前トレーニングデータ

一般的なビデオ ベース モデルの事前トレーニングには、さまざまなドメインからの大量のデータが必要です。多様なデータ分布を実現するために、表 1 に示すように、6 つの公開データセットと独自に収集したビデオ クリップを使用します。

Kinetics-710.新しくカスタマイズされた Kinetics アクション データセット Kinetics-710 [56] を、個別および共同の両方で教師ありトレーニングに使用します。710 個の固有のアクション ラベルが付いた 650K のビデオが含まれています。Kinetics 400/600/700 [27、69、70] の独自のトレーニング データをすべて組み合わせています。トレーニングの漏洩を避けるために、Kinetics の特定のバージョンのテスト セットに存在するトレーニング データの一部を破棄します。

UnlabeledHybrid. UnlabeledHybrid データセットは、Kinetics-710 [56]、Something-Something V2 [68]、AVA [67]、WebVid2M [55]、および独自に収集したビデオを含むマスク ビデオの事前トレーニングに使用されます。AVA の場合、15 分間のトレーニング ビデオを 300 フレームに分割し、21,000 個のビデオ クリップが作成されました。自己収集したビデオと WebVid2M からそれぞれ 250,000 個のビデオをランダムに選択します。詳細については、表 1 を参照してください。

表 2: 運動学と何か-何かに関する行動認識結果。これらのデータセットについて、表内のメソッドの上位 1 位の精度を比較します。InternVideo-D は、マスク ビデオ エンコーダ ViT-H と CLIP 事前学習済み UniFormerV2-L の 2 つのモデルを統合して得られることを意味し、InternVideo-T は、InternVideo-D とマルチモードの統合によって得られるマルチモードに基づくことを意味します。事前トレーニングされた UniFormerV2-L。
ここに画像の説明を挿入
表 3: Something-Something、ActivityNet、HACS、HMDB51 でのアクション認識結果 これらのデータセットについて、表内のメソッドの上位 1 位の精度を比較します。
ここに画像の説明を挿入

4.2 実装

4.2.1 マルチモーダルトレーニング

初期化として CLIP を使用し、マルチモーダル モデルの事前トレーニング後に WebVid2M、WebVid10M、および HowTo100M を使用します。ビデオテキストデータセットのトレーニングコーパスは CLIP-400M [13] ほど豊富ではないため、画像テキストデータセットを使用してビデオモデルを共同トレーニングします。LAION-400M [71] のサブセットには 1 億の画像テキストペアが含まれています。反復ごとに画像とビデオを交互に切り替えます。バッチ サイズはビデオ テキストの場合は 14,336、画像テキストの場合は 86,016 です。学習率 8 × 10−5、重み減衰 0.2、コサイン アニーリング スケジュール、および 4k ウォームアップ ステップを使用して、128 個の NVIDIA A100 GPU で 400k ステップを 2 週間トレーニングしました。

4.2.2 マスクされたビデオトレーニング

64 個の 80G-A100 GPU を使用して、UnlabeledHybrid データセット上で VideoMAE-Huge を 1200 エポックに対してトレーニングします。モデルはコサイン アニーリング学習率スケジュールを使用し、エポックの総数の 10% をウォームアップします。学習率は 2.5e − 4 に設定されます。データ拡張には MultiScaleCrop のみが使用されます。

4.2.3 モデルの相互作用

図 4 に示すように、マルチモーダル ビデオ エンコーダー内の 2 つのバックボーン ネットワークをフリーズし、分類レイヤーとクエリ トークンのみを残します。元の出力を維持するために、追加の MHCA および FFN に Flamingo [72] と同様の双曲線正接ゲート層を追加し、動的加重合計のパラメーターをゼロに初期化しました。バッチサイズ 64、学習率 5 × 105、重み減衰 0.001、ドロップアウト率 0.9、EMA 率 0.9999 で調整モデルをトレーニングします。さらに、1 サイクルのウォームアップを伴うコサイン アニーリング スケジュールも使用しました。使用されるすべてのデータ拡張は UniFormerV2 [56] と同じです。

4.3 下流のタスク

私たちは、さまざまな下流タスクで InternVideo を評価するために広範な実験を実施しています。採用されたタスクは、それぞれ行動の理解、ビデオ言語の調整、オープンな理解を考慮して 3 つのカテゴリに分類できます。InternVideo には、時空間変化を記述するための専用のマスクされたビデオ エンコーダと、マルチモダリティを組み込んだビデオ エンコーダが含まれているため、行動の理解 (セクション 4.3.1) とビデオ言語の調整 (セクション 4.3. セクション 2) タスク効果を大幅に向上させることができます。大規模なトレーニング データによってもたらされる一般化により、関連タスクでのゼロショットおよびオープンセットの優れたパフォーマンスも可能になります (セクション 4.3.3)。自己中心的なタスクに移行しても、InternVideo は単純な頭の中で圧倒的なパフォーマンスを示します [57]。詳細は以下の通り。

表 4: THUMOS-14 および ActivityNet-v1.3、HACS および FineAction での時間的アクションの位置特定の結果。各データセットで比較したメソッドの平均 mAP を報告します。
ここに画像の説明を挿入
表 5: AVA2.2 および AVA-Kinetics (AK) での時空間動作位置特定の結果。データセット上で評価されたメソッドの mAP をレポートします。

4.3.1 行動理解タスク

アクション認識(アクション認識)。アクションは時空間パターンを生成します。InternVideo の目標は、適切な時空間特徴の表現を学習し、動的パターンをモデル化することです。人気の Kinetics や Something-Something を含む 8 つのアクション認識ベンチマークで InternVideo を評価します。私たちは、Kinetics-400 [27]、Kinetics-600 [69]、Kinetics-700 [70]、Something-in-Something-V1 [68]、Something-in-Something-V2 [68]、ActivityNet [79] に取り組んできました。 ]、InternVideo の VideoMAE と UniFormerV2 は HACS [80] と HMDB51 [81] で評価されています。比較指標としてトップ 1 の精度を使用します。表 2 と 3 では、InternVideo はこれらすべてのアクション認識ベンチマークで非常に有望なパフォーマンスを示しています。当社の InternVideo は、ほぼすべてのベンチマークで以前の SOTA メソッドを大幅に上回り、ActivityNet で SOTA 結果を達成しました。追加の融合モデル (InternVideo-D と InternVideo-T) によってもたらされる精度の向上は、さまざまなラインがパフォーマンスの点で相互にメリットを享受できるため、広範なテクノロジー ロードマップを検討する必要があることを示しています。

時間的アクションの局在化このタスク (TAL) は、完全に観察されたトリミングされていないビデオからアクション セグメントの開始点と終了点を特定することを目的としています。私たちは、THUMOS-14 [82]、ActivityNet-v1.3 [79]、HACS Segment [80]、および FineAction [83] の 4 つの古典的な TAL データセットで InternVideo を評価しました。以前の時間的動作位置特定タスクと同様に、定量的評価には平均精度 (mAP) を使用します。アクション クラスの提案を評価するために、アクション クラスごとに精度 (AP) が計算されます。これは、さまざまな tIoU しきい値で計算されます。THUMOS-14、ActivityNet-v1.3、FineAction の ActionFormer [4] メソッド、および HACS Segment の TCANet [75] メソッドなど、公的に利用可能な最先端の TAL メソッドのパフォーマンスを報告します。特徴抽出のバックボーンとして、InternVideo の ViT-H を使用します。私たちの実験では、ViT-H モデルはハイブリッド データセットから事前トレーニングされています。表 4 に示すように、InternVideo は、これら 4 つの TAL データセットに対する以前のすべての方法よりも優れたパフォーマンスを示します。私たちの InternVideo は、特に THUMOS-14 や FineAction のようなきめの細かい TAL データセットにおいて、時間的アクションの位置特定において大きな向上を達成していることに注意してください。

時空間アクションの位置特定このタスク (STAL) は、ビデオ キーフレーム内のフレームとそれに対応する人々のアクションを予測することです。私たちは、AVA2.2 [67] と AVA-Kinetics [84] という 2 つの古典的な STAL データセットで InternVideo を評価します。AVA2.2 [67] では、各ビデオは 15 分間続き、毎秒キーフレームが与えられます。注釈はすべてのフレームではなく、キーフレームに対して提供されます。ここでは、このタスクに対して古典的な 2 段階のアプローチを使用します。MS-COCO [85] で十分に訓練された Mask-RCNN [86] を適用して、Alphaaction [87] プロジェクトで提供される各キーフレームで人物を検出します。第 2 段階では、キーフレームを中心に、一定数のフレームが抽出され、ビデオ バックボーンに供給されます。同様に、トレーニングでは、トレーニングされたグラウンドトゥルース ボックス [87] を使用し、テストには最初の段階で予測されたボックスを使用します。

InternVideo で ViT-Huge を実験します。具体的な結果を表 5 に示します。分類ヘッドは、シンプルなリニア ヘッドを使用して両方のデータセットで最先端のパフォーマンスを実現します。ViT-H モデルを使用し、トレーニングに AVA-Kinetics データセットを使用すると、全体的な mAP が向上するだけでなく、AVA のみでテストして得られた mAP も大幅に向上することに注意してください。これは、一部の Kinetics ビデオを AVA に導入すると、AVA 上のモデルの一般化能力が向上することを示していますが、一方で、AVA データセットのさまざまな分布を観察すると、AVA が典型的なロングテール分布を示していることがわかります。Kinetic ビデオを導入すると、この問題が軽減され、より良い結果が得られます。AVA-Kinetics データセットで検証されたモデルの数が少ないため、表 5 では、paperswithcode Web サイトからの結果のみが選択されています。

表 6: MSR-VTT、MSVD、LSMDC、ActivityNet、DiDeMo、および VATEX でのビデオ検索結果。テキストからビデオへ (T2V) およびビデオからテキストへ (V2T) の検索タスクに関する R@1 の結果を報告します。[翻訳者注: R@1 (Rank-1 Accuracy) はモデルのパフォーマンスの尺度であり、画像ベースの認識タスクや検索タスクを評価するためによく使用されます。R@1 メトリクスは、テスト データセットで予測を行うときに実際のラベルと同じ、モデルによって予測される最も確率の高いクラスの割合です。言い換えれば、モデルがクエリ画像を与えられたときに、一致する画像を正しく返すことができるかどうかを測定します。

具体的には、特定のクエリ画像に対して、モデルはデータセット内のすべての画像に対して予測を行い、予測された確率によってそれらをランク付けします。次に、R1 メトリックは、モデルがクエリ画像の最も高い予測確率をクエリ画像の実際のカテゴリと同じカテゴリに割り当てる割合を指す。

たとえば、データセットに 100 のカテゴリがあり、各カテゴリに 100 の画像がある場合、R@1 計算を実行するときに、モデルはクエリ画像ごとに予測を行い、それをデータセット内のすべての画像と比較します。次に、R@1 メトリックは、すべてのクエリ画像に対するモデルの平均精度を計算します。

R@1 インジケーターは、画像認識および検索タスクで一般的に使用されるインジケーターの 1 つですが、モデルのパフォーマンスを完全に反映しているわけではありません。場合によっては、Top-k Accuracy や Mean Average Precision (MAP) などの他のメトリクスを使用する方が適切な場合があります。]
ここに画像の説明を挿入
表 7: MSRVTT、MSVD、および TGIF でのビデオ質問応答。トップ 1 の精度をレポートします。
[訳者注: 機械学習と深層学習において、Top-k 精度率は分類モデルのパフォーマンスを評価する指標であり、最初の k 個の予測結果内のサンプルを正しく分類したモデルの割合を示します。Top-1 精度率は、Top-k 精度率の特殊なケースです。つまり、k=1 の場合、すべての予測結果内のサンプルを正しく分類したモデルの割合を示します。

具体的には、分類モデルとテスト データ セットの場合、上位 k 精度率は次のように計算されます。テスト サンプルごとに、モデルは最も可能性の高い k 個のカテゴリを出力し、k 個のカテゴリは次の確率に従って計算されます。高いものから低いものへ並べ替えます。サンプルの実際のカテゴリがこれらの k 個のカテゴリに含まれる場合、サンプルは正しく分類されていると見なされます。Top-1 精度は、Top-k 精度の特殊なケース、つまり k=1 の場合です。

トップ 1 精度は、最も可能性の高い単一クラスを予測するモデルの能力を評価するため、最も一般的な分類精度メトリックです。Top-k 精度率は、サンプルが複数のカテゴリに属する​​可能性がある状況を考慮するため、モデルの分類能力をより包括的に評価できます。通常、Top-k 精度率の k は 2、3、5、10 などの値をとります。

概要: Top-1 精度は Top-k 精度の特殊なケースであり、最も可能性の高い単一クラスを予測するモデルの能力を評価します。Top-k 精度率は、複数の可能なカテゴリを反映して、モデルの分類能力をより包括的に評価できます。
ここに画像の説明を挿入

4.3.2 ビデオ言語調整タスク

ビデオ取得:ビデオ取得タスクで InternVideo を評価します一連のビデオとそれに関連付けられた自然言語の字幕が与えられた場合、このタスクでは、候補者からクロスモーダル対応者に一致するビデオまたは字幕を取得する必要があります。一般的なパラダイムに従って、ビジュアル エンコーダ fv( ) およびテキスト エンコーダ ft( ) を介してビジュアルおよびテキストのセマンティクスをキャプチャし、検索ガイドとしてクロスモーダル類似性行列を計算します。fv( ) および ft( ) としてマルチモーダル ビデオ エンコーダを活用し、基礎となる CLIP [13] アーキテクチャとして事前トレーニングされた ViT-L/14 [28] を利用し、各取得データセットでモデル全体を微調整します。トレーニング方法とほとんどのハイパーパラメータ設定は、トレーニング スケジュール、学習率、バッチ サイズ、ビデオ フレーム数、最大テキスト長などを含め、CLIP4Clip [5] に従います。モデルのパフォーマンスを向上させるために、後処理操作としてダブル ソフトマックス損失 [91] も採用しています。
私たちのモデルは、MSR-VTT [92]、MSVD [93]、LSMDC [94]、DiDeMo [95]、ActivityNet [79]、および VATEX [96] の 6 つの公開ベンチマークで評価され、以前の作業に従って結果が報告されています。標準部門。表 6 に示すように、テキストからビデオへのタスクとビデオからテキストへのタスクの両方でランク 1 (R@1) メトリックを使用して検索結果を測定します。結果は、私たちのモデルが以前のすべての方法を大幅に上回っており、ビデオ言語関連のタスクにおける InternVideo の優位性を示しています。ランク 5 (R@5) およびランク 10 (R@10) を含む、より詳細な検索結果は補足資料に記載されています。

ビデオ質問応答(ビデオ質問応答) InternVideo のビジュアル言語機能をさらに実証するために、ビデオ質問応答 (VQA) で InternVideo を評価します。ビデオと質問のペアが与えられた場合、VQA のタスクは質問に対する答えを予測することです。クロスモーダル フュージョンのない元の CLIP モデルとは異なり、私たちのマルチモーダル ビデオ エンコーダーは、提案された字幕デコーダーを通じてモダリティ間のインタラクションをキャプチャできます。VQA 分類器に必要な特徴を生成するには、ビデオ エンコーダーとテキスト エンコーダーの特徴を連結する方法、字幕デコーダーの特徴のみを使用する方法、およびビデオ エンコーダー、テキスト エンコーダー、および字幕デコーダーのすべての特徴を連結する方法の 3 つの方法があります。比較後、パフォーマンスを向上させるために 3 つのソースすべての機能を使用することを選択します。VQA 分類器は 3 層の MLP です。
MSR-VTT [92]、MSVD [97]、および TGIF [98] という 3 つの一般的な公開ベンチマークで評価します。私たちは主に [24] のアプローチに従います。結果を表 7 に示します。私たちのモデルは以前のすべての SOTA を上回っており、クロスモーダル学習法の有効性を示しています。

視覚言語ナビゲーション.視覚言語ナビゲーション [99] では、エージェントが自然言語の指示に従い、視覚認識に従って未知の写実的な環境をナビゲートする必要があります。ナビゲーション エージェントは、特にエージェントが短いステップで連続空間をナビゲーションする場合、ナビゲーション履歴からオブジェクトの相対運動などの時空間情報をキャプチャできる必要があります。私たちのモデルのこの機能の有効性を検証するために、エージェントが継続的な環境で動作することを要求する VLN-CE ベンチマーク [100] で実験を実施します。
実験には [90] (CWP-HEP) で提案された方法を使用します。履歴強化プランナーは、ディープ エンベディングと RGB エンベディングの連結を入力エンベディングとして使用する HAMT [101] のカスタム バリアントです。VLN-CE セットアップではスライドが可能であるため、ここでは試用版コントローラーを使用していないことに注意してください。これは、以前の最先端の手法である CWP-VLNBERT [89] をすでに上回る強力なベースラインです。各決定ループでは、観測の最新 16 フレームを収集してパノラマ ナビゲーション ビデオを形成し、そのビデオを InternVideo の ViT-L を使用してエンコードします。ビデオの埋め込みは、最終的な画像の埋め込みとして、RGB 埋め込みおよび深度埋め込みと連結されます。評価については、詳細な指標については [90] を参照してください。InternVideo により、ベースラインの成功率 (SR) が 50.2% から 52.9% に向上します (表 8)。

表 8: VLN-CE データセットの結果。
ここに画像の説明を挿入

表 9: MSR-VTT、MSVD、LSMDC、ActivityNet、DiDeMo、および VATEX でのゼロショット ビデオ検索の結果。テキストからビデオへ (T2V) およびビデオからテキストへ (V2T) の検索タスクに関する R@1 の結果を報告します。
ここに画像の説明を挿入

4.3.3 ビデオオープニング理解タスク

ゼロショットアクション認識ゼロショット認識は、オリジナルの CLIP モデルの優れた機能の 1 つです。当社が設計したマルチモーダル ビデオ エンコーダを使用すると、さらなる最適化を行わなくても、優れたゼロショット アクション認識パフォーマンスを実現できます。Kinetics-400 データセットに基づいてモデルを 64.25% の精度で評価しました。これは、以前の最高結果である 56.4% [102] を大幅に上回っています。ゼロショットビデオ検索。ゼロショットのテキストからビデオへの取得およびビデオからテキストへの取得について、InternVideo と CLIP を比較します。公平な比較のために、事前トレーニングされた重み 1 の CLIP の ViT-L/14 モデルを使用します。Wise-finetuning [103] とモデル アンサンブルは、ゼロショット ビデオ検索のモデル パフォーマンスをさらに向上させるために採用されています。ゼロショット取得に最適なビデオ フレーム数は 4 ~ 8 であり、各ベンチマーク データセットで最高のパフォーマンスを発揮するフレーム数はグリッド検索によって取得されることが経験的にわかっています。表 9 に示すように、InternVideo は 6 つのベンチマーク データセットすべてで優れた検索能力を示しています。さらに、Florence [15] は事前トレーニングに 900M の画像とテキストのペアを使用し、MSR-VTT でのテキストからビデオへの検索で 37.6 の R@1 精度を達成しました。対照的に、私たちのモデルは、少ないトレーニング データ (1,435 万のビデオ + 1 億の画像対 9 億の画像) でフローレンスを 4.1% 上回りました。これらの結果は、事前トレーニング中にビデオとテキストの結合特徴空間を学習する際の私たちの方法の有効性を明らかにしています。

ゼロショット多肢選択ゼロショット多肢選択は、モデルの一般性を実証できるもう 1 つのゼロショット タスクです。多肢選択タスクの目標は、与えられた選択肢 (通常は 5 つの単語などの小さなサブセット) の中から正しい答えを見つけることです。画像とテキストのペア、ワイズ微調整、およびモデルアンサンブルを使用した共同トレーニングが、ゼロショット多肢選択のパフォーマンスに重要であることがわかりました。MSR-VTT および LSMDC データセットに関するゼロショット多肢選択の結果を表 10 に報告します。私たちはトレーニングの一般性を示す便利な指標としてゼロショット パフォーマンスを使用しており、結果は私たちのモデルが堅牢で効果的であることを示しています。

オープンセットアクション認識。(オープンセット アクション認識。 ) オープンセット アクション認識 (OSAR) では、モデルはトレーニング カテゴリ内の既知のアクション サンプルを認識し、トレーニング カテゴリ外の未知のサンプルを拒否できる必要があります。人間の行動には不確実な時間的な動的バイアスと静的バイアスがあるため、オープンセット認識 (OSR) 設定ではビデオアクションは画像に比べてより困難です [109]。私たちの InternVideo は、トレーニング カテゴリを超えた未知のカテゴリによく適応し、モデルのキャリブレーションなしで既存の方法 [109] を上回ります。

私たちは、InternVideo の ViT-H/16 モデルをバックボーンとして使用し、UCF-101 [110] トレーニング セットで微調整し、単純な線形分類ヘッドを使用します。InternVideo が「未知のものを知る」ことを可能にするために、[109] で提案された DEAR 法に従い、マルチクラス分類とモデリングが提供する不確かさである Evidence Deep Learning (EDL) を利用することで、DEAR 法を不確実性推定問題として形式化します。共同定式化法。具体的には、入力としてビデオが与えられると、InternVideo バックボーンの上部にある証拠ニューラル ネットワーク (ENN) がクラスの証拠を予測し、入力のマルチクラス確率と予測の不確実性を決定するディリクレ分布を形成します。開集合推論中、不確実性の高いビデオは未知のアクションとして扱うことができますが、不確実性の低いビデオは学習されたクラス確率によって分類されます。

InternVideo は、既知のアクション カテゴリだけでなく、未知のアクション カテゴリも正確に識別できます。表 11 は、InternVideo のクローズドセット (クローズドセット精度) とオープンセット (オープンセット AUC) のパフォーマンス、およびその他のベースラインの結果を報告しています。結果は、HMDB-51 [81] または MiT-v2 [111] からの既知のサンプルに関係なく、両方のオープンセット データセットで、私たちの InternVideo が一貫して他のベースラインを大幅に上回っていることを示しています。
表 10: MSR-VTT および LSMDC データセットのゼロショット多肢選択の結果。灰色のセクションは教師あり学習を使用する方法を表します。

表 11: 2 つの異なるオープンセットでのオープンセット アクション認識の結果。未知のクラスのサンプルはそれぞれ HMDB-51 と MiT-v2 からのものです。特定のしきい値でオープン セットの AUC をレポートします。このしきい値は、トレーニング ビデオ (UCF101) の 95% が既知のカテゴリとして識別されるように設定されています。
ここに画像の説明を挿入

5 結論

このペーパーでは、多用途でトレーニング効率の高いビデオ ベース モデルである InternVideo を提案します。私たちの知る限り、InternVideo は、すべてのアクションの理解、ビデオと言語の調整、およびビデオの開始部分の理解タスクにおいて最も優れたパフォーマンスを示した最初の研究です。以前の関連研究 [6、8、9] と比較すると、10 の異なるタスクをカバーする 40 近くのデータセットで最先端のパフォーマンスを達成することにより、ビデオ ベース モデルの汎用性が大幅に向上します。このモデルは、マスク ビデオ学習 (VideoMAE) とビデオ言語の対照モデリングおよび教師ありトレーニングの間のクロスモデル学習に基づいた統合ビデオ表現を利用します。以前のベースモデルと比較して、トレーニングが非常に効率的です。シンプルな ViT とそれに対応するバリアントを使用すると、一般的なビデオ表現を 64.5K GPU 時間 (A100-80G) 以内で実現できますが、CoCa [7] では 245.76K TPU 時間 (v4) が必要です。この一般的な時空間表現をさまざまなアプリケーションで検証します。シンプルなタスク ヘッダー (線形でも) と適切なダウンストリーム チューニングを使用したビデオ表現は、使用されているすべてのデータセットにわたって記録破りの結果を示します。ゼロショットのオープン データセットであっても、モデル スペクトルは一貫した大幅なパフォーマンス向上を実現し、その一般化と適応性をさらに実証しています。

5.1 制限事項

私たちの研究は、まったく新しい定式化やモデル設計を提供するのではなく、ビデオベースのモデルの有効性と実現可能性を示しています。現在人気のあるビデオ認識タスクに焦点を当て、クリップを使用してビデオを処理します。これは、長時間にわたるビデオ タスクや、映画の視聴部分からプロットを予測するなどの高度なタスクをほとんど処理できないように設計されています。これらのタスクを解決する能力を獲得することは、ビデオ表現学習の汎用性を高めるために非常に重要です。

5.2 今後の取り組み

ビデオベースのモデルの汎用性をさらに拡張するには、モデルの調整と認知をその研究に組み込む必要があると考えています。具体的には、より良い表現を実現するために、さまざまなモダリティ、事前トレーニング タスク、さらにはさまざまなアーキテクチャのベース モデルを体系的に調整する方法がまだ未解決であり、課題です。この問題を解決するには、モデルの蒸留、異なる事前トレーニング ターゲットの統合、機能の調整など、さまざまな技術的手段があります。以前に学んだ知識を活用することで、ビデオベースのモデルの開発を加速し続けることができます。

長期的には、基礎となるモデルは知覚を超えて認知的になる可能性があります。実現可能性の観点から、基礎的な動的知覚からのオープンワールドにおける大規模な時空間解析(長期かつ大規模シーン)は、この分野の研究トレンドの1つであり、基礎的な認知的理解をもたらすと考えています。さらに、基本モデルと意思決定を組み合わせてエージェントを形成し、新しいタスクを探索するというトレンドも生まれました。この対話では、データ収集とモデルのトレーニングも自動化されます。インタラクションの結果によってエージェントの戦略と動作が調整されるため、プロセス全体が閉ループに入ります。私たちの予備実験 (セクション 4.3.2) は、ビデオベースのモデルを身体化されたインテリジェンス(身体化 AI) に統合できる可能性を示しています。
[訳者注:身体化人工知能(Embodied Artificial Intelligence、Embodied Intelligence、Embodied AI)は「身体化AI」とも呼ばれ、「身体化人工知能」とはソフトウェアとハ​​ードウェアを組み合わせた知的体の創造を指します。これは単純に、さまざまな形のロボットとして理解でき、実際の物理環境でさまざまなタスクを実行して人工知能の進化を完了することができます。

6 広範囲にわたる影響(ボードへの影響)

ビデオベースモデルスペクトルであるInternVideoを提案します。約 40 のデータセットで最先端のパフォーマンスを実現し、アクションの識別、ビデオと言語の整合、オープンな理解を可能にします。公開されているデータに加えて、当社はインターネットから独自に収集したデータも利用します。データの収集に使用されるクエリは、厳選されたデータと同様に、倫理的および法的問題について検査されています。トレーニング InternVideo の消費電力は CoCa [7] よりもはるかに低く、CoCa の 23.19% のみを占めます。さらに影響を調査するには、偏見、リスク、公平性、平等、その他多くの社会的トピックを調査する必要があります。

引用

参考文献
[1] Boyang Xia、Wenhao Wu、Haoran Wang、Rui Su、Dongliang He、Haosen Yang、Xiaoran Fan、Wanli Ouyang。NSnet:
効率的なビデオ認識のための非顕著性抑制サンプラー。ECCV にて、2022 年。
[2] Alexandros Stergiou と Ronald Poppe。サイクルを学ぶ: アクション認識のための時間一貫性のある特徴検出。Pattern
Recognition Letters、141:1–7、2021。
[3] Lei Wang および Piotr Koniusz。統計的モーメントおよび部分空間記述子による自己監視型アクション認識。2021 年ACM
国際マルチメディア会議にて。
[4] Chenlin Zhang、Jianxin Wu、および ying Li。Actionformer: トランスフォーマーを使用してアクションの瞬間をローカライズします。eccv では、2022 年。
[5] Huaishao Luo、Lei Ji、Ming Zhong、Yang Chen、Wen Lei、Nan Duan、および Tianrui Li. Clip4clip: エンドツーエンドのビデオ クリップの取得とキャプションのためのクリップの実証的研究. Neurocomputing, 2022. [6
]
Chen Wei、Haoqi Fan、Saining Xie、Chao-Yuan Wu、Alan Yuille、Christoph Feichtenhofer.
自己教師付きビジュアル事前トレーニング用のマスクされた特徴予測. CVPR にて、2022.
[7] Jiahui Yu、Zirui Wang、Vijay Vasudevan、Legg Yeung、Mojtaba Seyedhosseini、Yonghui Wu. Coca: Contrastive captioners
are image-text Foundation models. arXiv プレプリント arXiv:2205.01917, 2022.
[8] Shen Yan、Xuehan Xiong、Anurag Arnab、Zhichao Lu、Mi Zhang、Chen Sun、およびCordelia Schmid、
ビデオ認識用のマルチビュー トランスフォーマー、CVPR、2022 年。
[9] ローワン・ゼラーズ、シーミン・ルー、ジャック・ヘッセル、ヨンジェ・ユ、ジェソン・パク、ジゼ・カオ、アリ・ファルハディ、イェジン・チェ。Merlot:
マルチモーダル ニューラル スクリプト知識モデル。NeurIPS、2021。
[10] Rishi Bommasani、Drew A Hudson、Ehsan Adeli、Russ Altman、Simran Arora、Sydney von Arx、Michael S Bernstein、Jeannette Bohg、
Antoine Bosselut、Emma Brunskill、他。基礎モデルの機会とリスクについて。arXiv プレプリント
arXiv:2108.07258、2021
。 [11] Hassan Akbari、Liangzhe Yuan、Rui Qian、Wei-Hong Chuang、Shih-Fu Chang、ying Cui、および Boqing Gong。
Vatt:生のビデオ、オーディオ、テキストからのマルチモーダル自己教師あり学習のためのトランスフォーマー。NeurIPS、2021 年。
[12] Jing Shao、Siyu Chen、Yangguang Li、Kun Wang、Zhenfei ying、Yeahan He、Jianing Teng、Qinghong Sun、Mengya Gao、Jihao Liu、他 インターン: 一般的なビジョンに向けた新しい学習パラダイム arXiv プレプリント arXiv
: 2111.08687、2021.
[13] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda
Askell、Pamela Mishkin、Jack Clark 他、自然言語監視からの転送可能な視覚モデルの学習。 ICML にて、
2021 年
[14] Chao Jia、Yingfei Yang、Ye Xia、Yi-Ting Chen、Zarana Parekh、Hieu Pham、Quoc Le、Yun-Hsuan Sung、Zhen Li、Tom Duerig 視覚言語と視覚言語のスケール
アップノイズのあるテキスト監視による表現学習。ICML、2021 年。
[15] Lu Yuan、Dongdong Chen、Yi-Ling Chen、Noel Codella、Xiyang Dai、Jianfeng Gao、Houdong Hu、Xuedong Huang、Boxin Li、Chunyuan Li、他 フローレンス: コンピューター ビジョンの新しい基盤モデル. arXiv プレ
プリントarXiv:2111.11432、2021.
[16] Jianwei Yang、Chunyuan Li、Pengchuan Zhang、Bin Xiao、Ce Liu、Lu Yuan、および Jianfeng Gao. 画像-テキスト-ラベル空間における統合対照学習.
CVPR にて、2022.
[17] Zirui Wang、Jiahui Yu、Adams Wei Yu、Zihang Dai、Yulia Tsvetkov、Yuan Cao. SimVLM: 弱い監視による単純な視覚言語モデルの事前トレーニング. ICLR にて、2022. [18] Peng Wang、
An
Yang、Rui Men、Junyang Lin 、Shuai Bai、Zhikang Li、Jianxin Ma、Chang Zhou、Jingren Zhou、Hongxia
ヤン。Ofa: シンプルなシーケンスツーシーケンス学習フレームワークを通じて、アーキテクチャ、タスク、およびモダリティを統合します。[19] Wenhui Wang、Hangbo Bao、Li Dong、Johan Bjorck、Zhiliang Peng、Qiang Liu、Kriti Aggarwal、Owais Khan Mohammed、Saksham
Singhal Subhojit Som、他。外国語としてのイメージ: すべての視覚および視覚言語タスクの事前トレーニング。arXiv プレプリント arXiv:2208.10442、2022。[20] Hangbo Bao、Li Dong、Songhao Piao、および Furu Wei。BEit: 画像変換器の BERT 事前トレーニング。ICLR にて、2022 年。[21] Paul Barham、Aakanksha Chowdhery、Jeff Dean、Sanjay Ghemawat、Steven Hand、Daniel Hurt、Michael Isard、Hyeontaek Lim、





Ruoming Pang、Sudip Roy 他、Pathways: Asynchronous distribution dataflow for ml. Proceedings of Machine Learning and
Systems、2022.
[22] Yiwei Ma、Guohai Xu、Xiaoshuai Sun、Ming Yan、Ji Zhang、Rongrong Ji. X-クリップ:
ビデオテキスト検索のためのエンドツーエンドのマルチグレイン対照学習. ACM International Conference on Multimedia, 2022.
[23] Zhan Tong、Yibing Song、Jue Wang、および Limin Wang. VideoMAE: マスクされたオートエンコーダはデータです
自己教師付きビデオ事前トレーニングのための効率的な学習者
。NeurIPS にて、2022 年。[24] Alex Jinpeng Wang、Yixiao Ge、Rui Yan、Yuying Ge、Xudong Lin、Guanyu Cai、Jianping Wu、Ying Shan、Xiaohu Qie、Mike
Zheng Shou. オールインワン: 統合されたビデオ言語の事前トレーニングの探索. arXiv プレプリント arXiv:2203.07303、2022。
[25] 何開明、陳信雷、謝彩寧、李楊豪、ピョートル・ドル、ロス・ガーシック。マスクされたオートエンコーダーは、スケーラブルな視覚
学習器です。CVPR にて、2022 年。
[26] Tianhao Li と Limin Wang。ビデオとテキストのペアの識別を通じて時空間特徴を学習します。CoRR、abs/2001.05691、2020。
[
27] ジョアン・カレイラとアンドリュー・ジッサーマン。Quo vadis、行動認識? 新しいモデルと動力学データセット。[28]アレクセイ
・ドソヴィツキー、ルーカス・バイエル、アレクサンダー・コレスニコフ、ダーク・ワイセンボルン、シャオファ・ザイ、トーマス・ウンターティナー、モスタファ・デガニ、マティアス・ミンデラー、ゲオルグ・ハイゴールド、シルヴァン・ゲリー、ヤコブ・
ウスコレイト、ニール・ホールズビー。画像は 16x16
ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。ICLR、2021年。
[29] Roman Bachmann、David Mizrahi、Andrei Atanov、および Amir Zamir. Multimae: マルチモーダル マルチタスク マスクされたオートエンコーダー.
arXiv プレプリント arXiv:2204.01678, 2022.
[30] Tsu-Jui Fu、Linjie Li、Zhe Gan、Kevin Lin、William Yang Wang、Lijuan Wang、および Zicheng Liu. Violet: マスクされたビジュアル トークン モデリングを使用したエンドツーエンドの
ビデオ言語トランスフォーマー. arXiv プレプリント arXiv:2111.12681, 2021.
[31] Linjie Li、Zhe Gan、Kevin Lin 、Chung-Ching Lin、Zicheng Li、CE LIU、および Lijuan Wang. Lavender: Unifying Video-Language UndersTanding
As Masked Language Modeling. Arxiv Preprint Arxiv: 22020 6.07160, 2022.
[32] Rowan Zellers、Jiasen Lu、ximing Lu、Youngjaeユウ、ヤンペン・ジャオ、モハマドレザー・サレヒ、アディティア・クスパティ、ジャック・ヘッセル、
アリ・ファルハディとイェジン・チェ。メルロー リザーブ: 視覚、言語、音声による神経スクリプトの知識。CVPR にて、2022 年。
[33] カール・ドーシュ、アビナフ・グプタ、アレクセイ・A・エフロス。コンテキスト予測による教師なし視覚表現学習。
ICCVにて、2015 年。
[34] Xiaolong Wang と Abhinav Gupta。ビデオを使用した視覚表現の教師なし学習。ICCV にて、2015 年。
[35] メディ・ノルージとパオロ・ファバロ。ジグソーパズルを解くことによる視覚表現の教師なし学習。ECCV にて、2016 年。
[36] リチャード・チャン、フィリップ・イソラ、アレクセイ・A・エフロス。カラフルな画像の色付け。ECCV にて、2016 年。
[37] Christoph Feichtenhofer、Haoqi Fan、Yanghao Li、Kaiming He。時空間学習者としてのマスクされたオートエンコーダー。arXiv
プレプリント arXiv:2205.09113、2022。
[38] Zhirong Wu、Yuanjun Xiong、Stella X Yu、Dahua Lin。ノンパラメトリックインスタンス
識別による教師なし特徴学習。CVPRにて、2018年。
[39] Kaiming He、Haoqi Fan、Yuxin Wu、Saining Xie、およびRoss Girshick。教師なし視覚表現
学習の運動量コントラスト。CVPR にて、2020 年。
[40] ティン・チェン、サイモン・コーンブリス、モハマド・ノルージ、ジェフリー・ヒントン。視覚表現の対比学習のためのシンプルなフレームワーク
ICML、2020年。
[41] ジャン=バスティアン・グリル、フロリアン・ストラブ、フロラン・アルチェ、コランタン・タレック、ピエール・リシュモン、エレナ・ブチャツカヤ、カール・ドゥルシュ、ベルナルド・アビラ・ピレス、ザオハン・グオ、モハマド・ゲシュラギ・
アザール、他。
自分自身の潜在的なブートストラップ -自己教師あり学習への新しいアプローチ。NeurIPS、2020。
[42] チェン・シンレイと何・カイミン。単純なシャム表現の学習を探索します。CVPR にて、2021 年。
[43] マーク・チェン、アレック・ラドフォード、レウォン・チャイルド、ジェフリー・ウー、ヒウー・ジュン、デビッド・ルアン、イリヤ・サツケヴァー。ピクセルからの生成的な事前トレーニング
[44] アディティア・
ラメシュ、ミハイル・パブロフ、ガブリエル・ゴー、スコット・グレイ、チェルシー・ヴォス、アレック・ラドフォード、マーク・チェン、イリヤ・サツケヴァー。
ゼロショットのテキストから画像への生成。ICML にて、2021 年。
[45] Rui Wang、Dongdong Chen、Zuxuan Wu、yingpeng Chen、Xiyang Dai、Mengchen Liu、Yu-Gang Jiang、Luowei Zhou、および Lu Yuan
Bevt: ビデオ トランスフォーマーの Bert 事前トレーニング。CVPR にて、2022 年。
[46] アントワーヌ・ミーク、ジャン=バティスト・アライラック、ルーカス・スマイラ、イワン・ラプテフ、ジョセフ・シビック、アンドリュー・ジサーマン。エンドツーエンドの学習
キュレートされていない教育ビデオからの視覚的表現のまとめ。CVPR にて、2020 年。
[47] Hu Xu、Gargi Ghosh、Po-Yao Huang、Dmytro Okhonko、Armen Aghajanyan、Florian Metze、Luke Zettlemoyer、Christoph Feichtenhofer。ビデオクリップ: 対照的な事前
トレーニングゼロショットビデオテキストの理解. arXiv プレプリント arXiv:2109.14084,
2021.
[48] Xiaowei Hu、Zhe Gan、Jianfeng Wang、Zhengyuan Yang、Zicheng Liu、Yumao Lu、および Lijuan Wang. 画像キャプション用のビジョン言語事前トレーニングのスケールアップ
[49] Zi-Yi Dou、Yichong Xu、Zhe Gan、Jianfeng Wang、Shuohang Wang、Lijuan Wang、Chengguang Zhu、Pengchuan Zhang、Lu Yuan、Nanyun Peng、他 トレーニング終了に関する実証
研究- エンドツーエンドの視覚と言語のトランスフォーマー。CVPR、2022 年。
[50] Sheng Shen、Liunian Harold Li、Hao Tan、Mohit Bansal、Anna Rohrbach、Kai-Wei Chang、Zhewei Yao、Kurt Keutzer. クリップは視覚と言語のタスクにどれだけのメリットをもたらしますか? arXiv プレプリント arXiv:
2107.06383、2021
[51] Lewei Yao、Runhui Huang、Lu Hou、Guansong Lu、Minzhe Niu、Hang Xu、Xiaodan Liang、Zhenguo Li、Xin Jiang、および Chunjing Xu. Filip : きめ細かい対話型言語イメージの事前トレーニング. arXiv プレプリント
arXiv :2111.07783、2021.
[52] Chen Sun、Austin Myers、Carl Vondrick、Kevin P. Murphy、および Cordelia Schmid. Videobert: ビデオおよび言語表現学習のための共同モデル. ICCV、2019. [53]
Linchao
Zhu および Yi Yang . アクトバート: グローバル-ローカルのビデオテキスト表現の学習. CVPR、2020.

[54] Jie Lei、Linjie Li、Luowei Zhou、Zhe Gan、Tamara L Berg、Mohit Bansal、および Jingjing Liu. Less is more:スパース サンプリングによるビデオおよび言語学習のための Clipbert. CVPR にて、2021 年。 [55
] Max Bain、Arsha Nagrani、Gül Varol、および Andrew Zisserman. Frozen in time: A Joint video and image encoder for end-to-end
retrieval. ICCV にて、2021.
[56] Kunchang Li、Yali Wang、Yinan He、Yizhuo Li 、Yi Wang、Limin Wang、および Yu Qiao.Uniformerv2:
ビデオユニフォームを装備した画像ビットによる時空間学習.arXiv プレプリント arXiv:2211.09552, 2022.
[57] Guo Chen、Sen Xing、Zhe Chen、Yi Wang、Kunchang Li、Yizhuoリー、イー・リウ、ジアハオ・ワン、インドン・ジェン、ビンクン・ファン、
et al. Internvideo-ego4d: ego4d の課題に対するチャンピオン ソリューションのパック. arXiv プレプリント arXiv:2211.09529, 2022. [ 58
] Anurag Arnab、Mostafa Dehghani、Georg Heigold、Chen Sun、Mario Luˇci´c、Cordelia Schmid. Vivit :ビデオ ビジョン
トランスフォーマー。ICCV にて、2021 年。
[59] Ze Liu、Jia Ning、Yue Cao、Yixuan Wei、Zheng Zhang、Stephen Lin、Han Hu. ビデオ swin トランスフォーマー。CVPR にて、2022 年。[60] Junnan Li
、 RAMPRASAATH SELVARAJU、Akhilesh Gotmare、Shafiq Jged、Caiming Xiong、Steven Chu Hon Hoi. Align BeFore Fuse
: Momentum distility による視覚と言語表現の学習. Neurips, 2021.
[61] Tianwei Lin、xu zhao、haisheng su、chongjing Wang、 Bsn: 時間的アクションのための境界に敏感なネットワーク
[ 62
] Tianwei Lin、Xiao Liu、Xin Li、Errui Ding、および Shilei Wen. Bmn: 時間的境界マッチング ネットワークアクション提案の
生成. ICCV にて、2019 年.
[63] Elad Hoffer、Tal Ben-Nun、Itay Hubara、Niv Giladi、Torsten Hoefler、および Daniel Soudry. バッチの拡張: インスタンスの繰り返しによる一般化の改善. CVPR、2020. [
64
] Kunchang Li、Yali Wang、Gao Peng、Guanglu Song、Yu Liu、Hongsheng Li、Yu Qiao、Uniformer: 効率的な
時空間表現学習のための統合トランスフォーマー、ICLR、2022 年
[65] Limin Wang、Yuanjun Xiong、Zhe Wang 、Yu Qiao、Dahua Lin、Xiaou Tang、Luc Van Gool。時間セグメント ネットワーク:
深い行動認識のための優れた実践に向けて。ECCV にて、2016 年。
[66] アントワーヌ・ミーク、ディミトリ・ジューコフ、ジャン=バティスト・アライラック、マカランド・タパスウィ、イワン・ラプテフ、ジョセフ・シビック。Howto100m:
1 億件のナレーション付きビデオ クリップを見て、テキスト ビデオの埋め込みを学習します。ICCV、2019。
[67] Chunhui Gu、Chen Sun、David A Ross、Carl Vondrick、Caroline Pantofaru、Yeqing Li、Sudheendra Vijayanarasimhan、George
Toderici、Susanna Ricco、Rahul Suktankar、他。Ava: 時空間的に局所化された原子的な視覚アクションのビデオ データセット。
CVPRにて、2018年。
[68] ラーガブ・ゴヤル、サミラ・エブラヒミ・カホウ、ヴィンセント・ミハルスキー、ジョアンナ・マテルジンスカ、スザンヌ・ウェストファル、ヒューナ・キム、バレンティン
ヘネル、インゴ・フルエンド、ピーター・ヤニロス、モーリッツ・ミュラー=フライタグ、他
視覚常識を学び評価するための「なんとか」映像データベース。ICCVにて、2017年。
[69] ジョアン・カレイラ、エリック・ノーランド、アンドラス・バンキ=ホーバス、クロエ・ヒリアー、アンドリュー・ジサーマン。kinetics-600 についての短いメモ。
arXiv プレプリント arXiv:1808.01340、2018。
[70] ジョアン・カレーラ、エリック・ノーランド、クロエ・ヒリアー、アンドリュー・ジサーマン。kinetics-700 人間の行動データセットに関する短いメモ。
arXiv プレプリント arXiv:1907.06987、2019。
[71] Christoph Schuhmann、Richard Vencu、Romain Beaumont、Robert Kaczmarczyk、Clayton Mullis、Aarush Katta、Theo
Coombes、Jenia Jitsev、および Aran Kokutsuzaki。Laion-400m: クリップ フィルタリングされた 4 億個の画像とテキストのペアのオープン データセット。arXiv
プレプリント arXiv:2111.02114、2021.
[72] Jean-Baptiste Alayrac、Jeff Donahue、Pauline Luc、Antoine Mitoch、Iain Barr、Yana Hasson、Karel Lenc、Arthur Mensch、Katie Millican、Malcolm Reynolds et al. Flamingo: a Visual
言語フューショット学習のための年齢モデル. Arxiv プレプリント Arxiv: 2204.14198,
2022.
[73] Yuan Tian、Yichao Yan、Guangtao zhai、Guodong Guo、および zhiyong gao. Ean: 強化されたアクション記録のための EVENT ADA ptive network.
IJCV、 2022.
[74 ] Christoph Feichtenhofer、Haoqi Fan、Jitendra Malik、Kaiming He. ビデオ認識のための低速ネットワーク. ICCV にて、2019. [75]
Zhiwu
Qing、Haisheng Su、Weihao Gan、Dongliang Wang、Wei Wu、Xiang Wang、 Yu Qiao、Junjie Yan、Changxin Gao、
Nong Sang. 時間的アクション提案改良のための時間的コンテキスト集約ネットワーク. CVPR において、2021.
[76] Humam Alwassel、Silvio Giancola、および Bernard Ghanem. Tsp: ローカリゼーション タスクのためのビデオ エンコーダの時間的敏感な事前トレーニング.
ICCV において、202 1. [ 77] Junting Pan、Siyu Chen、Mike Zheng Shou、Yu Liu、Jing Shao、Hongsheng Li.時空間アクションローカリゼーション
のためのアクター-コンテキスト-アクター関係ネットワーク. CVPR にて、2021. [78] Yutong Feng、Jianwen Jiang 、Ziyuan Huang、Zhiwu Qing、Xiang Wang、Shiwei Zhang、Mingqian Tang、および Yue Gao.時空間アクション位置特定における関係モデリング. arXiv プレプリント arXiv:2106.08061, 2021.



[79] ファビアン・カバ・ハイルブロン、ビクター・エスコルシア、バーナード・ガネム、フアン・カルロス・ニーブレス。Activitynet: 人間の活動を理解するための大規模なビデオ
ベンチマーク。CVPR にて、2015 年。
[80] Hang Zhao、Antonio Torralba、Lorenzo Torresani、Zhicheng Yan。Hacs:
認識と時間的位置特定のための人間のアクションのクリップとセグメント データセット。ICCV にて、2019 年。
[81] ヒルデガルト・キューネ、フエイハン・ジュアン、エスティバリス・ガローテ、トマソ・ポッジョ、トーマス・セール。Hmdb: 人間の動作認識のための大規模なビデオ データベース
[82] Haroon Idrees、Amir R Zamir、Yu-Gang Jiang
、Alex Gorban、Ivan Laptev、Rahul Suktankar、Mubarak Shah。Thumos は、
「野生の」ビデオのアクション認識に挑戦しています。CVIU、2017年。
[83] イー・リウ、リーミン・ワン、ヤーリー・ワン、シャオ・マー、ユー・チャオ。Fineaction: 時間的アクションの位置特定のためのきめの細かいビデオ データセット
画像処理に関する IEEE トランザクション、2022 年。
[84] Ang Li、Meghana Thotakuri、David A Ross、João Carreira、Alexander Vostrikov、Andrew Zisserman。ava-kinetics の
ローカライズされた人間の行動ビデオ データセット。arXiv プレプリント arXiv:2005.00214、2020.
[85] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár、および C Lawrence
Zitnick。Microsoft coco: コンテキスト内の共通オブジェクト。ECCV にて、2014 年。
[86] Kaiming He、Georgia Gkioxari、Piotr Dollar、Ross Girshick。マスクr-cnn。ICCVにて、2017年。
[87] Jiajun Tang、Jin Xia、Xinzhi Mu、Bo Pang、および Cewu Lu. アクション検出のための非同期インタラクション集約. ECCV にて、2020. [88] Yuqi Liu、Pengfei Xiong 、Luhui Xu、Shengming Cao、および Qin
Jin
。 Ts2-net:
テキストビデオ検索のためのトークンシフトと選択トランスフォーマー. ECCV にて、2022. [89] Yicong Hon、Zun Wang、Qi Wu、および Stephen Gould.視覚のための
離散環境と連続環境での学習間のギャップを埋める
-言語ナビゲーション。CVPR にて、2022 年。
[90] Dong An、Zun Wang、Yangguang Li、Yi Wang、Yicong Hon、Yan Huang、Liang Wang、Jing Shao。rxr-生息地ビジョンと言語ナビゲーションの 1 位の
ソリューション競争 (cvpr 2022).arXiv プレプリント arXiv:2206.11610、2022。
[91] Xing Cheng、Hezheng Lin、Xiangyu Wu、Fan Yang、Dong Shen。マルチストリーム コーパス
アライメントとデュアル ソフトマックス損失により、ビデオ テキストの検索が向上します。arXiv プレプリント arXiv:2109.04290、2021。
[92] Jun Xu、Tao Mei、Ting Yao、および Yong Rui。Msr-vtt: ビデオと言語の橋渡しをするための大規模なビデオ記述データセット。
CVPRにて、2016 年。
[93] Zuxuan Wu、Ting Yao、Yanwei Fu、および Yu-Gang Jiang。ビデオ分類とキャプションのためのディープラーニング。マルチメディア研究のフロンティアで
2017年。
[94] リサ・アン・ヘンドリックス、オリバー・ワン、イーライ・シェヒトマン、ジョセフ・シビック、トレバー・ダレル、ブライアン・ラッセル。
自然言語を使用してビデオ内の瞬間をローカライズします。ICCVにて、2017年。
[95] アンナ・ロールバッハ、マルクス・ロールバッハ、ニケット・タンドン、ベルント・シーレ。映画の説明用のデータセット。CVPR にて、2015 年。
[96] Xin Wang、Jiawe Wu、Junkun Chen、Lei Li、Yuan-Fang Wang、および William Yang Wang。
Vatex:ビデオと言語の研究のための大規模で高品質な多言語データセット。ICCV にて、2019 年。
[97] デビッド・チェンとウィリアム・B・ドーラン。言い換え評価のために高度に並列性の高いデータを収集します。2011年のACL。
[98] ユンチェン・リー、イェール・ソング、リャンリャン・カオ、ジョエル・テトロー、ラリー・ゴールドバーグ、アレハンドロ・ハイメス、ジエボ・ルオ。Tgif: アニメーション GIF の説明に関する新しい
データセットとベンチマーク。CVPR にて、2016 年。
[99] ピーター・アンダーソン、チー・ウー、ダミアン・テニー、ジェイク・ブルース、マーク・ジョンソン、ニコ・ズンダーハウフ、イアン・リード、スティーブン・グールド、アントン
ヴァン・デン・ヘンゲル。視覚と言語によるナビゲーション: 実際の環境における視覚に基づいたナビゲーション指示を解釈します。
CVPR にて、2018 年。
[100] ジェイコブ・クランツ、エリック・ワイマンス、アルジュン・マジュムダル、ドゥルヴ・バトラ、ステファン・リー。ナビゲーション グラフを超えて:
連続環境における視覚と言語のナビゲーション。[ 101
] Shizhe Chen、Pierre-Louis Guhur、Cordelia Schmid、および Ivan Laptev。視覚と言語のナビゲーションのための歴史を認識したマルチモーダル トランスフォーマー。NeurIPS、2021。
[102] Mengmeng Wang、Jiazheng Xing、および Yong Liu。Actionclip: ビデオアクション認識の新しいパラダイム。ArXiv、
abs/2109.08472、2021。
[103] ミッチェル・ワーツマン、ガブリエル・イルハルコ、ジョン・ウク・キム、マイク・リー、サイモン・コーンブリス、レベッカ・ロエロフス、ラファエル・ゴンティホ・ロペス、
ハンナネ・ハジシルジ、アリ・ファルハディ、ホンソク・ナムクン 他 ゼロショットモデルの堅牢な微調整。CVPR にて、2022 年。
[104] ユ・ヨンジェ、キム・ジョンソク、キム・ゴンヒ。ビデオの質問応答と検索のための結合シーケンス融合モデル。ECCV
、2018年。
[105] アビジット・ベンデールとテレンス・E・ボールト。オープンセットのディープネットワークに向けて。CVPR にて、2016 年。
[106] ヤリン・ガルとズービン・ガーラマニ。ベイジアン近似としてのドロップアウト: 深層学習におけるモデルの不確実性を表します。
ICML にて、2016 年。
[107] ランガナート・クリシュナン、マヘシュ・スベダル、オメッシュ・ティクー。バー: 変分推論を使用したベイジアン アクティビティ認識。
arXiv プレプリント arXiv:1811.03305、2018。
[108] チェン・グアンヤオ、喬麗夢、シー・イェミン、彭ペイシー、リー・ジア、ファン・ティジュン、プー・シーリャン、ティアン・ヨンホン。
弁別逆数点による開集合ネットワークの学習。ECCV、2020年。
[109] Wentao Bao、Qi Yu、Yu Kong。開集合アクション認識のための証拠深層学習。ICCV にて、2021 年。
[110] クルラム・スムロ、アミール・ロシャン・ザミル、ムバラク・シャー。野生のビデオからの 101 の人間のアクション クラスのデータセット。
コンピューター ビジョン研究センター、2012 年。
[111] Mathew Monfort、Bowen Pan、Kandan Ramakrishnan、Alex Andonian、Barry A McNamara、Alex Lascelles、Quanfu Fan、Dan
Gutfreund、Rogerio Feris、および Aude Oliva。複数の瞬間: マルチアクションビデオを
理解するためのモデルの学習と解釈。TPAMI、2021年。

おすすめ

転載: blog.csdn.net/crazyjinks/article/details/131229082