AAAI 2023|人間の脳のシーン認識プロセスをシミュレートし、マトリョーシカ トランスフォーマーのストーリーテリング能力をより高いレベルに向上

元リンク:https://www.techbeat.net/article-info?id=4467
作者:seven_

ビデオ字幕生成は、業界の AI 作成の分野で非常にホットな研究トピックになっています.この技術は、短いビデオのコンテンツ分析と説明に適用できます.AI ストーリーテリングの技術はますます成熟しています. 学界では、研究者は字幕生成の評価基準とスケーラビリティを探求する傾向があります
ここに画像の説明を挿入

紙のリンク:
https://arxiv.org/abs/2211.15103
コードのリンク:
https://github.com/UARK-AICV/VLTinT

この記事では、人工知能分野のトップ会議であるAAAI2023に採択されたばかりの記事を紹介します.この記事では、従来の短いビデオ字幕生成タスクに限定されず、これに基づいてビデオ段落字幕要約タスクをさらに 動画の字幕生成タスクでは、モデルが長い未処理の動画の一般的なテキスト説明を生成する必要があり、動画で説明されている首尾一貫したストーリーは、特定の時間位置に厳密に従います。これには、モデルが時空間イベントを抽出する強力な機能を備えている必要があります.この論文は、アーカンソー大学とカーネギーメロン大学によって共同で完成されました.

著者は、人間が動画を視聴する際の知覚プロセスをたどり、動画シーンを視覚的要素 (人間、動物など) と非視覚的要素 (行動、関係性など) に分解することでシーンを階層的に理解し、Visual-Linguistic という手法を提案しています。 (VL) マルチモーダル視覚言語機能。VL 機能では、完全なビデオ シーンが主に次の 3 つのモダリティによってモデル化されます。

  • 周囲のシーン全体を表すグローバルな視覚環境の表現
  • 現在何が起こっているかを表す局所的な視覚的主題表現
  • 視覚的および非視覚的要素を説明する言語シーン要素

著者らは、自己回帰トランスフォーマー構造 (TinT)を設計して、これら 3 つのモダリティを表現およびモデル化し、ビデオ内のイベント内およびイベント間のコンテンツのセマンティック コヒーレンスを同時にキャプチャできます。モデルをより効率的にトレーニングするために、著者はまた、学習された埋め込み機能が字幕セマンティクスと一致することを保証する新しい VL マルチモーダル コントラスト損失関数を提案します. 著者は、複数の段落レベルの字幕生成ベンチマークでモデルを実行します. 評価結果は示す.この論文の方法がSOTAを達成すること!

I.はじめに

ビデオ サブタイトル生成タスクは、イメージ サブタイトル生成タスクから派生します. 最も重要なブランチの 1 つは、高密度ビデオ キャプション生成 (Dense Video Captioning, DVC)です. DVC のタスク設定では、モデルはイベントのリストを生成する必要があります時間順、および各イベントごとに、関連する文の説明を生成して、ビデオ字幕の意味の一貫性を確保します。DVC の簡略化されたバージョンである Video Paragraph Captioning (VPC) の目的は、特定のビデオの一般的な段落の説明を生成することです。これにより、イベントの分析と説明のプロセスが簡素化されます。

一般的に言えば、VPC モデルは 2 つの主要コンポーネントで構成されます。つまり、ビデオ内の各イベントの特徴表現を生成するエンコーダーと、関連する字幕を生成するデコーダーに供給されます以前の VPC メソッドのほとんどは、CNN ベースのブラックボックス ネットワークを使用してビデオ機能をエンコードするため、ビデオとビデオ内の言語モダリティ間の相互作用が無視される場合があります。このホワイト ペーパーで提案されている VLTinT モデルは、ビデオ シーンを 3 つのモダリティに分解して、ビデオ内の視覚的要素と非視覚的要素の詳細な説明を実現します。さらに、現在のイベントに中心的な影響力を持つメイン エージェントに焦点を当てるために、著者は、Hybrid Attention Mechanism (HAM) を学習に追加しました。以下の図は、本論文で提案する VLTinT モデルと他の従来手法との比較を示しています。
ここに画像の説明を挿入
VPC タスクでは、モデルはイベントごとに 1 文の説明を生成する必要があり、これらの単語は互いに論理的に関連している必要があるため、ビデオ内の 2 種類の依存関係、つまりイントラ間のイベントとイベントの依存関係以前の方法では、RNN ベースの方法を使用してイベント内の一貫性をシミュレートおよびモデル化することがよくありますが、自然言語の分野における Transformer テクノロジの急速な発展に伴い、この構造は上の図のような自己注意ブロックに徐々に置き換えられています。に示されている .XL および MART メソッド。ただし、これらの方法では、イベント間の一貫性を考慮せずに、各イベントが個別にデコードされます。、この課題に対処するために、この論文の著者は、Transformer アーキテクチャ (TinT) 内の新しい Transformer を提案します。TinT Decoder は、ビデオ内のイベント内およびイベント間の依存関係モデリングを同時に考慮することができます。単純に最尤推定損失 (MLE) を使用してモデルをトレーニングする以前の方法と比較して、著者は新しいマルチモーダル VL 対照的損失を導入して、追加のコンピューティング コストを追加することなく、トレーニング プロセス中に視覚的および言語的セマンティクスの学習を維持します。

2. 本論文の方法

このホワイト ペーパーの VLTinT は、エンコーダー VL Encoder とデコーダー TinT Decoder に対応する 2 つのメイン モジュールで構成されています。その中で、VL エンコーダーは主にビデオ内のさまざまなイベントの特徴表現を抽出する役割を担い、TinT デコーダーは主にこれらの特徴をデコードして各イベントのテキスト説明を生成し、イベント内およびイベント間の一貫性をモデル化する役割を果たします両方のモジュールは、この論文で提案されているVL コントラスト損失を通じてエンドツーエンドの方法でトレーニングされます. VLTinT の全体的なアーキテクチャは下の図に示されています. 以下では、各モジュールの技術的な詳細を詳しく紹介します.
ここに画像の説明を挿入

2.1 視覚言語コーダー

VPC タスクでは、最初にトリミングされていないビデオV = { vi } i = 1 ∣ V ∣ \mathcal{V}=\left\{v_{i}\right\}_{i=1}^{ |\mathcal が与えられます。 {V}|}={ v}私は= 1V、ここで∣ V ∣ |\mathcal{V}|V はフレーム数で、重要なイベントを含むリストはE = { ei = ( eib , eie ) } i = 1 ∣ E ∣ \mathcal{E}=\left\{e_{i}=\left (e_ {i}^{b}, e_{i}^{e}\right)\right\}_{i=1}^{|\mathcal{E}|}={ e=( ebee) }私は= 1、ここで∣ E ∣ |\mathcal{E}|E はビデオ内のイベントの数、イベントei e_{i}e開始と終了のタイムスタンプ ( eib 、 eie ) のペアによって定義されます\left(e_{i}^{b}, e_{i}^{e}\right)( ebeeVPC の目的は、ビデオ全体と比較できるビデオを生成することですV \mathcal{V}コヒーレント段落P = { si } i = 1 ∣ E ∣ \mathcal{P}=\left\{\mathbf{s}_{i}\right\}_{i=1}^{ |\mathcal{E} |}P={ }私は= 1. VL エンコーダーは、イベントX i の各セグメントを X_{i} に変換する役割を果たします。バツ合成は代表的な特徴としてエンコードされ、デコーダーの一連の段落レベルの特徴を構成しますたとえば、与えられたイベントe = ( eb , ee ) e=\left(e^{b}, e^{e}\right)e=( ebee )とそれに対応するビデオ フレームV e = { vi ∣ eb ≤ i ≤ ee } \mathcal{V}_{e}=\left\{v_{i} \mid e^{b} \leq i \leq e ^{e}\右\}e={ vebee }V e \mathcal{V}_{e}の既存の標準設定に従います。e分割する。各フラグメントX i X_{i}バツによるδ \deltaδ連続フレーム、V e \mathcal{V}_{e}e合計でL = ⌈ ∣ V e ∣ δ ⌉ L=\left\lceil\frac{\left|\mathcal{V}_{e}\right|}{\delta}\right\rceilL=dVeフラグメント。上の図の左半分に示すように、VL エンコーダ モジュールは各フラグメントX i X_{i}バツfi VL f_{i}^{VL}としてエンコードVL _

特定のエンコーディング プロセスでは、作成者は最初に 3 つのモーダル データを別々にモデル化し、次にそれらの相互作用に従ってそれらを包括的な表現に融合しますバツ、これはfie f_{i}^{e}に対応する 3 つのモードとしてエンコードされますeファイ f_{a}^{i}a和飛f_{l}^{ei}l私は_. 次に、相互作用を表す最終的な機能fi VL f_{i}^{VL} が、 Multi-modal Representation Fusion (M2RF) モジュールによって取得されます。VL _、詳細は次のとおりです。

グローバル視覚環境表現
このモダリティには入力セグメントX i X_{i}が含まれますバツ空間シーン全体の視覚的な意味情報著者は、事前トレーニング済みの 3D-CNN を特徴抽出のバックボーン ネットワークとして使用し、ネットワークの最後の畳み込みブロックで特徴マップH i H_{i}を抽出します。H. 次に、ペアH i H_{i}によってH平均プーリング操作を実行して空間次元全体を削減し、チャネル MLP を渡してグローバル環境の視覚的特徴fie ∈ R demb f_{i}^{e} \in \mathbb{R}^{d_{\mathrm{埋め込み}} }eεRd埋め込み. このプロセスは次のように形式化されます。
ここに画像の説明を挿入

局所視覚主題表現

イベントの主な貢献オブジェクトとして、ローカルのビジュアル サブジェクトに焦点を当てる必要がありますが、すべてのサブジェクト アクションがイベント フラグメントのメイン コンテンツに関連しているわけではないことに注意する必要があるため、作成者はまずX i X_{i }バツ人間検出器を使用して σ の中央フレームが検出され、視覚対象の境界ボックスが取得されます。次に、RoIAlign を使用して各境界ボックスの特徴マップが取得され、これらの特徴マップが単一の特徴ベクトルに平均化されて表されます。ボックスの視覚的特徴の視覚的主題。最後に、HAM を使用して、検出されたサブジェクト間の相互関係を適応的に抽出し、統一されたエージェント認識視覚的特徴fia ∈ R demb f_{i}^{a} \in \mathbb{R}^{d_ {\mathrm{emb }}}aεRd埋め込み、具体的な操作は次のとおりです。
ここに画像の説明を挿入

言語シーンの要素

言語シーン要素は、前の 2 つのモダリティに含まれるシーン空間の外観と対象オブジェクトの動きの視覚情報と比較して、追加のシーン コンテキストの詳細を提供しますさらに、著者は、通常の視覚的バックボーンは視覚的特徴のみに注意を払い、シーン イベントに大きく関連する非視覚的情報を無視する可能性があると考えているため、対照的な言語画像事前トレーニング モデル CLIP [1]の使用を検討しています。,2] 非視覚的なテキストを結合するには、特定の画像に関連付けます。具体的には、作成者は語彙を構築しますW = { w 1 , … wm } \mathcal{W}=\left\{w_{1}, \ldots w_ {m}\右\}W={ w1wメートル} . 各語彙wi ∈ W w_{i} \in \mathcal{W}wεWは変換ネットワークf ϕ f_{\phi}φテキスト機能fiw f_{i}^{w}にエンコードw、以下に示すように。W t W_{t}
ここに画像の説明を挿入
とするWtCLIP 用に事前トレーニングされたテキスト射影行列。埋め込みテキスト語彙の計算プロセスは次のとおりです。
ここに画像の説明を挿入

マルチモーダル特性評価 Fusion M2RF モジュール

M2RF の役割は 3 つのモードの特性を融合することです.現在の一般的な接続と合計の方法とは異なり, M2RF は結果に対する個々のモードの影響をシミュレートすることに重点を置いています. 著者は M2RF を関数g γ g_{ \ガンマ}gc ,它将特征 f i e , f i a f_{i}^{e}, f_{i}^{a} eaf _l入力として、特徴間の関係が自己注意層を通じて抽出され、平均化されます。与えられたフラグメントX i X_{i}バツ、これは最終的にfi VL ∈ R demb f_{i}^{VL} \in \mathbb{R}^{d_{\mathrm{emb}}} を表しますVL _εRd埋め込み次のように:
ここに画像の説明を挿入

2.2 TinT デコーダ

TinT デコーダーの構造は、ビジュアル言語の Transformer モデルに着想を得ており、統一されたエンコード/デコード Transformer 構造が字幕ジェネレーターの基礎として使用されていますこの設計原則のガイダンスの下で、ビデオ機能FVL \mathcal{F}^{VL}V L は、最初にVL エンコーダーによって取得されたすべてのフラグメントの特徴を連結します。つまり、FVL = { fi VL } i = 1 L ∈ RL × d cmb \mathcal{F}^{VL}=\left\{f_{i} ^ {VL}\right\}_{i=1}^{L} \in \mathbb{R}^{L \times d_{\text {cmb }}}VL _={ fVL _}私は= 1LεR長さ×奥行きcmb . ここで、テキストトークンF text \mathcal{F}^{\text {text }}text は 、CLIP の事前学習済みテキスト エンコーダg ϕ g_{\phi}gφMLP レイヤ エンコーディングを取得して、次を取得します。
ここに画像の説明を挿入

2.3 VL マルチモーダルコントラスト損失

以前の方法で使用された MLE 損失と比較して、このホワイト ペーパーで提案されている VL コントラスト損失は、コントラスト学習の利点を使用して、モデルがイベント レベルのマッチングと、学習に基づいて同じタイプのイベントの異なるセグメントのアライメントを実行するのに役立ちます。字幕と GT テキストの一致を予測しますこの論文で提案されている VL 損失は、サブタイトルの損失L cap に対応する 2 つの部分で構成されています。Lキャプ _ _と対照的な文脈損失L con . \mathcal{L}_{co n.}Lコン _. ここでL cap . \mathcal{L}_{cap.}Lキャプ _ _の目的は、GT に一致する字幕をデコードすることですが、L con . \mathcal{L}_{co n.}Lコン _次に、学習された潜在的な特徴が、GT キャプションでエンコードされたセマンティック情報に近いことが保証されます。

3. 実験結果

この論文では、ActivityNet Captions と YouCookII の 2 つの人気のあるビデオ マルチイベント データセットでベンチマーク テストを実施し、評価指標を精度と多様性の 2 種類に分けています著者はまず VLTinT を以前の SOTA VPC 方式と比較し、実験結果を下の表に示します。著者は、各指標に対応する最高スコアと次善スコアを強調しています他の方法と比較して、VLTinT は生成されたキャプションの精度と多様性を両方の面で示しています。さらに、著者は、VLTinT と他の方法との視覚的な字幕生成の比較も示しています.下の図に示すように、 VLTinT は、より詳細で詳細な説明的な字幕を生成できること
ここに画像の説明を挿入
ここに画像の説明を挿入
がわかります特に、著者は、VTrans と MART はタイトルに頻度の高い単語を使用する傾向が強いのに対し、VLTinT は表現力豊かだが頻度の低い単語を使用できることを観察しています。これは、VLTinT の VL エンコーダーがシーン内の他の視覚要素をより包括的にキャプチャできるためであり、モデルがシーンをより包括的に理解するのに役立ちます。
ここに画像の説明を挿入

4.まとめ

この作業では、著者は、VL エンコーダーと TinT デコーダーで構成される、ビデオ パラグラフ レベルのサブタイトル生成タスク (VPC) 用の新しい Transformer in Transformer 構造を提案します。注目すべきは、著者がビデオ シーンを 3 つの独自のモダリティに分割して、階層的なモデリングと学習を行うVL エンコーダで初めて、この方法は人間の脳のビデオ データの認識プロセスに非常に適していることです。これにより、この分野におけるコミュニティの研究のための非常に優れた研究アイデアが確立されました.さらに、 TinT デコーダの自己回帰構造は、ビデオ内のイベント内およびイベント間のさまざまな依存関係を効果的に学習し、モデルの改善にも役立ちます.全体的なパフォーマンス. 著者は将来の見通しで、VLTinT モデルによって抽出されたマルチモーダルなビデオ機能は、 AI ビデオ制作の作業効率を向上させるために、より広い用途で他の高密度ビデオ字幕生成タスクに拡張できると述べました。

参考

[1] パタシニク、O。ウー、Z。ら。2021. StyleCLIP: StyleGAN 画像のテキスト駆動型操作。ICCV では、2065 ~ 2074 年。
[2]ヤン、B。and Zou, Y. 2021. CLIP Meets Video Captioners: Attribute-Aware Representation Learning は正確なキャプションを促進します。ArXiv プレプリント、abs/2111.15162。

IconScout の IconScout Store によるイラスト

-終わり-

私の「扉」について

Jiangmen は、テクノロジー主導の新興企業の発見、加速、投資に重点を置いた新しいベンチャー キャピタル機関であり、子会社には、Jiangmen Innovation Service、Jiangmen-TechBeat Technology Community、Jiangmen Venture Capital Fund が含まれます。
Jiangmen は 2015 年末に設立され、創業チームは中国の Microsoft Ventures の元のチームによって構築され、Microsoft のために 126 の革新的なテクノロジ スタートアップを選択し、深く育成してきました。
あなたが技術分野の新興企業で、投資だけでなく、一連の継続的で価値のある投資後のサービスも必要な場合は、プロジェクトを私に送信または推奨してください:
[email protected]

おすすめ

転載: blog.csdn.net/hanseywho/article/details/128677466