VLP、マルチモーダル ビデオ テキスト タスク (1)

        ビデオは本質的に多くの形式を包含しており、AI システムが世界をどのように認識するかをテストするための小宇宙として使用されてきました。この章では、ビデオ テキスト タスクへのビジュアル言語事前トレーニング (VLP) の適用について系統的にレビューします。

        まずは人気のビデオテキストタスクを紹介します。ビデオ エンコーダー、テキスト エンコーダー、マルチモーダル フュージョン モジュールで構成される典型的なビデオ テキスト モデルのアーキテクチャを確認します。代表的なビデオ言語モデルを 2 つのカテゴリに分類します。

(i) デュアル エンコーダ。ビデオとテキストが別々にエンコードされ、軽量のマルチモーダル フュージョン レイヤーまたは操作 (ドット積など) を使用してビデオとテキストの機能を融合します。

(ii) Fusion エンコーダ。通常、ビデオ エンコーダとテキスト エンコーダの上に複数の追加の Transformer レイヤを採用して、ビデオとテキストの機能間の深い相互作用をキャプチャします。

1.ビデオテキストタスク

         ビデオからテキストへの 3 つの一般的なタスク、テキストからビデオの取得、ビデオの質問への応答、およびビデオの字幕の生成を紹介します。これらのタスクの例を図 1 に示します。

図 1: ビデオからテキストへの代表的なタスクの例には、(i) ビデオ検索およびモーメント検索を含むテキストからビデオへの検索、(ii) 多肢選択および自由回答設定を含むビデオ質問応答、(iii
)ビデオ説明の生成。単文の説明と段落の説明が含まれます。

1.1 テキストからビデオへの取得

        テキストからビデオへの検索タスクは、自然言語クエリに基づいて大規模なビデオ コーパスから関連するビデオまたはビデオ クリップを取得することです。タスクは設定に基づいてさらに 3 つのタイプに分類できます。

・ビデオ検索(ビデオ検索:VR)

        大規模なビデオ コーパスから関連するビデオを取得します。この設定では、テキスト クエリでビデオの概要説明を提供する必要があります。図 1 の例を挙げると、「男性が犬とフリスビーをする」は、最初のビデオで発生したイベントを要約しています。これはテキストから画像への取得に似ており、評価メトリクスには Recall@K (K=1、5、10、100) が使用されます。

• シングルビデオモーメント取得 (SVMR)

        特定のビデオから取得したビデオ内のビデオ クリップを見つけますテキスト クエリは、ビデオ全体の特定のセグメントにのみ関連します。図 1 では、「犬がフリスビーを持って走っている」は、最初のビデオの t = 3、4、5 のビジュアル コンテンツにのみ関連付けることができます。同様に、評価メトリクスは Recall@K (K=1、5、10、100) を使用し、実際の提案と予測された提案の間の時間交差対和集合 (tIoU) の比率を制限します (例: tIoU≥0.5/0.7)。

• ビデオコーパスモーメント検索 (VCMR)

        関連するビデオ クリップのプールを 1 つのビデオから大規模なビデオ コーパスに拡張します。VR と SVMR を組み合わせたものと考えることができます。AI モデルは、ビデオ コーパスから関連するビデオを取得するだけでなく、テキスト クエリでビデオ クリップを説明できるように、取得したビデオ内でビデオ クリップを特定する必要もあります。たとえば、「犬がフリスビーを持って走っている」というクエリが与えられた場合、モデルは最初のビデオと正しく一致し、テキスト クエリを t = 3 から t = 5 までのビデオ クリップに制限する必要があります。同様に、VCMR は、tIoU≥0.5/0.7 で Recall@K (K=1、5、10、100) を使用して評価されます。

        ほとんどの VLP モデルは VR 上で評価されます。一般的な VR データセットには、(i)単一文からビデオを取得するための MSVD、MSRVTT、LSMDC、YouCook2、および VATEX、 (ii)段落からビデオを取得するための DiDeMo および ActivityNet Captionsが含まれます段落からビデオへの検索データセットは、より困難な SVMR または VCMR タスクを変換することによって収集されたデータセットです。DiDeMo と ActivityNet Captions では、各段落の文に関連する時間間隔の注釈が付けられます。最近、TVR と How2R が、マルチチャンネル ビデオ入力を備えた VCMR に追加のダイアログ/説明情報を導入することが提案されました。

1.2 ビデオ質疑応答 (VQA)

        ビデオと質問のペアが与えられた場合、ビデオ質問応答では、ビデオ コンテンツに基づいて質問に答える AI モデルが必要です。2 つの設定があり、どちらも精度によって評価されます。

• 多肢選択式ビデオ QA

        モデルは、少数の回答オプションの固定セット (例: 4 ~ 5 の回答オプション) から正しい回答を特定する必要があります。答えは有限セットに制限されるため、タスクは分類問題として定式化されることがよくあります。文献では、少数のテキスト候補を含むビデオからテキストへの検索タスクは、多肢選択 QA タスクとして扱われることがよくあります。

• オープンビデオQA

        正しい答えは、語彙全体の単語から自由に作成できます。一般的なアプローチは、まずトレーニング セットから最も一般的な回答を選択し、限定された回答語彙を形成し、それを分類タスクとして定式化することです。

1.3 ビデオの説明

        ビデオ記述タスクは、指定されたビデオの自然言語記述を生成することであり、これは 3 つのタスクの中で唯一の生成タスクです。生成されたタイトルは、関心のあるイベントやオブジェクト、時間の経過に伴うイベントやオブジェクトの動作、それらの間の関係など、ビデオの内容を包括的に説明できることが期待されます。最も一般的なベンチマークでは、ビデオ コンテンツ全体を要約する1 文のタイトルを生成する必要があります。短いビデオでは、何が起こったかを要約するのに 1 つの文だけが必要な場合がありますが、長いビデオの場合は、密度の高い注釈ベースラインのように、説明に複数の文の段落が必要になることがよくあります。最近、ビデオ内の視覚的なシーンとダイアログ/字幕を説明するキャプションを含む、マルチモーダル ビデオ キャプション データセットが提案されました。タイトル生成のパフォーマンスは、標準のテキスト生成メトリックを使用して評価されました。

2. モデルの枠組み

        概要: テキスト文 w とビデオ v のペアが与えられると、一般的なビデオ-テキスト モデルは、まずテキスト エンコーダーとビデオ エンコーダーを通じてそれぞれテキスト特徴シーケンスと視覚特徴を抽出しw = {w_1, \dots ,w_N}ますv = {v_1, \dots , v_M}ここで、N は文内のトークンの数、M はビデオの視覚的特徴の数であり、使用される特定の視覚的エンコーダーに応じて異なります。マルチモーダル フュージョン モジュールは、これらの特徴を共有埋め込み空間に投影して、クロスモーダル表現を生成します。マルチモーダル フュージョン モジュールの設計に基づいて、ビデオ テキスト モデルを 2 つのカテゴリに大別します。

Transformer に基づくビデオ言語モデルの一般的なフレームワークの概略図

• デュアルエンコーダー

        ビデオとテキストは別々にエンコードされ、ビデオとテキストの特徴間の相互作用は、ドット積やコサイン類似度などの軽量演算を使用してモデル化されます。この設計は、テキストからビデオへの検索における高速検索に非常に有益であり、ビデオとテキストの事前トレーニングを対比させることでビデオ表現を改善するためにも広く使用されています。ただし、この浅いクロスモーダル インタラクションは、サポート セットで示されているように、ビデオの質問応答や字幕生成タスクには十分効率的ではありません。したがって、字幕の生成には追加のテキスト デコーダが必要です。

• フュージョンエンコーダー

        ビデオ エンコーダーとテキスト エンコーダーの上に Transformer レイヤーを追加して、ビデオとテキスト機能の間のきめ細かい対話をキャプチャします。ディープ フュージョン エンコーダを使用した優れた作品には、VideoBERT、UniVL、ClipBERT、MERLOT があり、ビデオの質問応答や説明の生成タスクで優れたパフォーマンスを発揮します。テキストからビデオへの検索タスクでも競争力のあるパフォーマンスが達成されますが、融合エンコーダーはデュアル エンコーダーと比較して計算コストが高くなります

ビデオ テキスト タスク用に開発された VLP モデルは常に進化しており、代表的な作品の一部のみを示しています。

表 1: ビデオからテキストへのタスク用の代表的な VLP モデル E2E
: エンドツーエンド。CNN: 畳み込みニューラル ネットワーク。OD: オブジェクト検出器。エクスフォーマー:トランスフォーマー。埋め込み: 埋め込みます。MLM/MFM/MVM: マスクされた言語/フレーム/ビデオ モデリング。VTM: ビデオとテキストのマッチング。VTC: ビデオとテキストの対照学習。FOM: フレームシーケンシャルモデリング。LM: 言語モデリング。

        ビデオ テキスト モデルの最終出力は、クロスモーダル表現の結果としてマルチモーダル フュージョン モジュール (エンコーダーのみのモデルの場合) によって直接生成することも、マルチモーダル フュージョン モジュールと出力層の間にデコーダーを追加することによっても生成できます。表 1 は、融合エンコーダー モデル (上のボックス) とデュアル エンコーダー モデル (下のボックス) を含む、ビデオ テキスト タスクの代表的な VLP モデルをまとめたものです。次に、各コンポーネントを詳しく確認します。

2.1 ビデオエンコーダ

        ビデオ エンコーダ 静止画像とは異なり、ビデオ セグメントは時間の経過とともに変化する一連のフレーム/画像で構成されます。したがって、ビデオ エンコーダは、各フレームの空間情報だけでなく、フレーム間の時間的なダイナミクスもキャプチャする必要があります時間の経過とともに、ビデオ エンコーダは、複数のオフライン特徴抽出器から、エンドツーエンドで学習される統合ビデオ エンコーダに進化します。ビデオ エンコーダーの変更は、ビデオ テキスト タスクにおける VLP の一般的な傾向、つまり 2 段階の事前トレーニングからエンドツーエンドの事前トレーニングへの移行も反映しています。

• 複数のオフライン特徴抽出ツール

        初期のアプローチは、画像分類用に事前トレーニングされた 2D CNN (例: ResNet)、アクション認識用に事前トレーニングされた 3D CNN (例: I3D)、および物体検出モデル (例: Faster RCNN) などの固定ビデオ特徴抽出器の組み合わせを使用することでした。 .)。これらのビデオ特徴は、テキスト入力と同様の形式にさらに処理されるか、テキスト表現と同じ高次元空間に投影されます。

        たとえば、VideoBERT は、事前に抽出されたビデオ特徴を階層ベクトル量子化することにより、一連の「ビジュアル トークン」 (テキスト トークンに類似) を生成します。これらの視覚的マーカーは、S3D が Kinetics で事前トレーニングした階層ベクトル量子化から得られます。ActBERT は、3D CNN のアクション特徴シーケンスと Faster R-CNN の領域オブジェクト特徴シーケンスを組み合わせてビデオを表現します。次に、特定のトークン (アクションの場合は [ACT]、オブジェクトの場合は [REGION]) の学習可能な埋め込みが、マルチモーダル フュージョン モジュールにフィードされる前に機能に追加されます。HERO は、ビデオ表現と同じフレーム レートで抽出された 2D ResNet-101 特徴と 3D Slowfast 特徴を連結します。完全に接続されたレイヤーを介して、連結されたビデオ特徴を潜在空間に投影し、入力フレーム特徴の時間的順序をエンコードする位置埋め込みを追加します。

• エンドツーエンド方式で学習されたビデオエンコーダー

        事前に抽出されたビデオ特徴に基づくモデルは優れたパフォーマンスを実現しますが、これらの固定特徴とターゲットのビデオ テキスト タスク/ドメインの間にはある程度の不一致があります。オフライン特徴抽出器は通常、さまざまなドメインの純粋に視覚的なタスクでトレーニングされます。この問題に対処するために、研究者らはエンドツーエンド (E2E) 方式でビデオテキストの事前トレーニング中にビデオエンコーダを最適化することを試みました。これには、複数のビデオ エンコーダを使用するよりも多くのコンピューティング リソースが必要となるため、単一のビデオ エンコーダが使用されます。

        たとえば、HTM はランダムに初期化された I3D を使用してビデオ表現を最初から学習します。ClipBERT では、時間平均プーリングとともにオブジェクト検出用に事前トレーニングされた ResNet-50 を使用してビデオ表現が生成されます。ViT の開発に伴い、最近のエンドツーエンド モデルは完全に Transformer ベースのアーキテクチャを採用しています。Frozen は、事前トレーニングされた ViT にいくつかの時空間セルフ アテンション ブロックを挿入し、事前トレーニングされたビデオ テキストを比較することでグローバルなビデオ表現を学習します。MV-GPT および LAVENDER は、ビデオ ビジョン トランスフォーマー (ViViT など) およびビデオ Swin Transformer を介して直接接続されます。

2.2 テキストエンコーディング

        まず、テキスト入力が一連のトークンにトークン化されて、トークン埋め込みが取得されます。BERT のようなモデルがビデオ テキストの事前トレーニングを広く採用する前は、初期のデュアル エンコーダー モデル (Miech et al., 2019, 2020) では、事前トレーニングされた word2vec 埋め込み (Mikolov et al., 2013a) を利用し、その後に最大プーリング操作が続きました。 . 文全体の表現を取得します。最近の研究の多くは、BERT の標準的なテキスト前処理ステップに従い、テキストを WordPiece シーケンスに分割し (Wu et al., 2016)、シーケンスの先頭と末尾に 2 つの特別なトークン ([CLS] と [SEP]) を挿入します。これらのトークンを高次元連続空間のベクトルに埋め込むために、単語埋め込み層、位置埋め込み層、層正規化層で構成される単語埋め込み層が使用されます。デュアルエンコーダーモデルの場合、学習された埋め込みは、ディープ Transformer ネットワークによって生成された特徴ベクトルです (Patrick et al., 2020; Bain et al., 2021; Xu et al., 2021b)。融合エンコーダ モデルの場合、単語埋め込み層が唯一のテキスト固有のモデル コンポーネントであるマルチモーダル フュージョン モジュール (Tang et al., 2021c; Xu et al., 2021a) に直接入力することも、マルチモーダル フュージョン モジュールに入力することもできます。モジュール。いくつかの Transformer レイヤーを通じて事前に処理されています (Yang et al., 2021a, b; Seo et al., 2022)。

2.3 マルチモーダル融合

        HTM や MNCE などのデュアル エンコーダ モデルの場合、ビデオ/テキスト エンコーダから抽出されたグローバル ビデオ/テキスト表現は、軽量の内積を通じて共通の意味空間に配置されます。融合エンコーダ モデルの場合、最も一般的な設計はマージ アテンションであり、テキストとビデオの機能が単純に連結され、単一の Transformer ブロックに供給されます。最近の研究では、著者らはセルフアテンション層とフィードフォワード層の間の上位数個の Transformer 層にクロスアテンション モジュールを挿入し、テキスト特徴が可変長の視覚特徴シーケンスに焦点を合わせられるようにしました。これは共同注意に似ています。ただし、異なる点は、ビデオからテキストへのクロスアテンション モジュールのみが使用されることです。

2.4 エンコーダのみとエンコーダ/デコーダの比較

        画像テキスト モデルと同様に、既存のビデオ テキスト モデルのほとんどはエンコーダのみのアーキテクチャを採用し、出力層を介して直接クロスモーダル表現から最終出力を生成します。UniVL、MV-GPT、およびサポート セットは、エンコーダと出力層の間にデコーダが追加されるエンコーダ デコーダ アーキテクチャを使用した代表的な作品です。これらの研究では、デコーダは事前トレーニングされており、ビデオの説明を自己回帰的に生成するためにダウンストリーム タスクで使用されます。この比較例は、入力画像を一連の入力ビデオ フレームに置き換えるだけで、ビデオ テキスト入力に直接適用できます。

 参考:視覚言語事前トレーニング:基礎、最近の進歩、そして今後の動向

おすすめ

転載: blog.csdn.net/qq_41458274/article/details/133313235