Tune-A-Video: テキストからビデオへの生成のための画像拡散モデルのワンショット調整

Tune-A-Video: テキストからビデオへの生成のための画像拡散モデルのワンショット調整

図 1. Tune-A-Video: テキストとビデオのペアと事前トレーニングされた T2I モデルを使用して T2V を生成する新しい方法。

プロジェクト: https://tuneavideo.github.io
元のリンク: Tnue-A-Video: Text-to-Video Generation のための画像拡散モデルのワンショット チューニング (Frontiers of Small Sample Vision and Intelligence による)

目次

01 既存の業務が不足していませんか?

テキストから画像 (T2I) 生成の成功を再現するために、最近の研究では大規模なビデオ データセットを使用してテキストからビデオ (T2V) ジェネレーターをトレーニングしています。彼らの結果は有望ですが、このパラダイムは計算コストが高くなります。

図 2. 事前学習済み T2I モデルに関する観察: 1) 動詞用語を正確に表す静的画像を生成できます。 2) 空間的自己注意を時空間的注意に拡張すると、フレーム全体で一貫したコンテンツが生成されます。

02 この記事はどのような問題を解決しますか?

私たちは、新しい T2V 生成設定、つまりテキストとビデオのペアが 1 つだけ存在するワンショット ビデオ チューニングを提案します。私たちのモデルは、大量の画像データで事前トレーニングされた最先端の T2I 拡散モデルに基づいて構築されています。

03 鍵となる解決策は何ですか?

私たちは、カスタマイズされた時空間的注意メカニズムと効率的なワンショット調整戦略を含む Tune-A-Video を紹介します。推論中に、DDIM 逆変換を使用して、サンプリングの構造的なガイダンスを提供します。

04 主な貢献は何ですか?

  • T2V 生成用のワンショット ビデオ チューニングの新しい設定を導入します。これにより、大規模なビデオ データセットを使用したトレーニングの負担が軽減されます。
  • 私たちは、事前トレーニングされた T2I モデルを使用して T2V を生成する最初のフレームワークである Tune-A-Video を提案します。
  • 時間的一貫性を大幅に向上させる、効率的な注意調整と構造反転を提案します。

05 関連する仕事にはどのようなものがありますか?

  • テキストから画像への拡散モデル。
  • Text-to-Video 生成モデル。
  • テキストベースのビデオ編集。
  • 単一のビデオからの生成。

06 メソッドはどのように実行されますか?

図 3. Tune-A-Video の概要。 字幕付きビデオが与えられた場合、T2V モデリング用に事前トレーニングされた T2I モデル (安定拡散など) を微調整します。 推論中に、入力ビデオの時間的一貫性を維持しながら、テキスト キューの編集を表す新しいビデオを生成します。

ネットワークのインフレ

空間的自己注意メカニズム:


其中, z v i z_{v_i} zv私はフレームvi v_iですv私は対応する潜在コード表現。W∗W^*W∗ は、クエリ、キー、および値への入力を射影する学習可能な行列であり、d はキーとクエリの特徴の出力次元です。

私たちは、因果的注意メカニズムのスパース バージョンを使用することを提案します。フレームzvi z_{v_i}では、zv私は 和帧 z v 1 z_{v_1} zv1zvi − 1 z_{v_{i-1}}zvi 1計算の複雑さをO ( 2 m ( N ) 2 ) O(2m(N)^2)に抑えて、間のアテンション行列を計算します。O ( 2メートル( N )2 )
次のように Attend(Q,k,V) を実装します。


ここで[ ⋅ ] [\cdot][ ]は接続操作を示し、図 5 に視覚的な説明を示します。

図 5. ST-Attn: フレーム vi、前のフレーム vi−1 および v1 の潜在特徴がクエリ Q、キー K、および値 V に投影されます。 出力は、クエリと主要な特徴の間の類似性によって重み付けされた値の重み付けされた合計です。 更新されたパラメータ WQ を強調します。

微調整と推論

1)モデルの微調整

新しく追加される時間的自己注意 (T-Attn) レイヤー全体を微調整します。さらに、クロスアテンションにおけるクエリ投影を更新することで、テキストとビデオの位置合わせ (Cross-Attn) を改良することを提案します。実際には、アテンション ブロックの微調整は、事前トレーニングされた T2I 拡散モデルの元の特性を維持しながら、完全に調整する場合と比較して計算効率が高くなります [39]。標準 ldm [37] と同じトレーニング目標を使用します。図 4 は、強調表示されたトレーニング可能なパラメータを使用した微調整プロセスを示しています。

図 4. Tune-A-Video のパイプライン: 入力としてテキストとビデオのペア (例: 「人がスキーをしている」) が与えられると、私たちのメソッドは事前トレーニングされた T2I 拡散モデルを利用して T2V を生成します。 微調整中に、標準の拡散トレーニング損失を使用してアテンション ブロック内の射影行列を更新します。 推論中、編集されたキュー (例: 「ビーチでサーフィンするスパイダーマン、漫画風」) に基づいて、入力ビデオから反転された潜在ノイズから新しいビデオをサンプリングします。

2) DDIM インバージョンに基づく構造ガイダンス

ソース ビデオ V の根底にあるノイズは、テキスト条件なしで DDIM 反転によって取得されます。このノイズは、編集されたヒントT ∗ \mathcal{T}^*によって与えられる、DDIM サンプリングの開始点として機能します。Tご案内です。出力ビデオV ∗ \mathcal{V}^*V∗ は次のように与えられます。

07 実験結果と比較効果は何ですか?

アプリケーション

1)オブジェクトの編集。

私たちの方法の主な用途の 1 つは、テキスト キューを編集してオブジェクトを変更することです。これにより、オブジェクトを簡単に置換、追加、削除できます。図 6 にいくつかの例を示します。

図6. 実験結果

2)背景変更。

私たちの方法では、オブジェクトの動きの一貫性を維持しながら、ユーザーがビデオの背景 (つまり、オブジェクトが配置されている場所) を変更することもできます。たとえば、新しい場所と時間の説明を追加し、図 7 の田舎側の道路ビューを海のビューに変更することで、図 6 のスキーヤーの背景を「ビーチ」または「日没」に変更できます。

図 7. 評価方法の定性的比較

3)スタイルの転送。

事前トレーニングされた T2I モデルのオープンドメインの知識により、私たちの方法はビデオを、ビデオ データのみから学習するのが難しいさまざまなスタイルに変換します (12)。たとえば、グローバル スタイル記述子をキューに追加することで、現実世界のビデオを漫画スタイル (図 6、またはゴッホ スタイル (図 10)) に変換します。

表 1. 定量的評価。

4) パーソナライズされた制御可能な生成

私たちの方法は、パーソナライズされた T2I モデル (たとえば、3 ~ 5 枚の画像を入力として受け取り、パーソナライズされた T2I モデルを返す DreamBooth [39]) と簡単に統合でき、それらを直接調整できます。たとえば、「モダン ディズニー スタイル」または「ミスター ポテト ヘッド」でパーソナライズされた DreamBooth を使用して、特定のスタイルやテーマのビデオを作成できます (図 11)。私たちの方法は、T2I アダプター [29] や ControlNet [52] などの条件付き T2I モデルと統合して、追加のトレーニング コストなしで、生成されたビデオにさまざまな制御を適用することもできます。たとえば、一連の人間のポーズをコントロールとして使用して、モーションをさらに編集することができます (たとえば、図 1 のダンス)。

定性的な結果

図 7 に、いくつかのベースラインと私たちの方法を視覚的に比較します。対照的に、私たちの方法は、入力ビデオの構造情報を保持し、編集された単語や詳細と一致する、時間的に一貫したビデオを生成します。追加の定性的比較を図 12 に示します。

定量的な結果

自動メトリクスとユーザー調査を通じてベースラインに対するメソッドを定量化し、フレームワークの一貫性とテキストの信頼性を表 1 に報告します。

08 アブレーション研究は何を教えてくれますか?

私たちは、時空間注意 (ST-Attn) メカニズム、DDIM 反転、および微調整の重要性を評価するために、Tune-A-Video でアブレーション研究を実施します。各デザインは個別に取り上げられ、その影響が分析されます。結果を図 8 に示します。

図 8. アブレーションの研究。
これらの結果は、私たちのすべての主要な設計が私たちの方法の成功した結果に貢献していることを示しています。

09 この作業をどのように最適化できますか?

図 9 は、入力ビデオにオクルージョンのある複数のオブジェクトが含まれている場合にこの方法が失敗することを示しています。これは、複数のオブジェクトおよびオブジェクトの相互作用を処理する際の T2I モデルの固有の制限が原因である可能性があります。考えられる解決策は、深さなどの追加の条件情報を使用して、モデルがさまざまなオブジェクトとその相互作用を区別できるようにすることです。この分野の研究は将来の研究に残されています。

図 9. 制限事項。

10 結論

このペーパーでは、T2V によって生成される新しいタスク、つまりワンショット ビデオ チューニングを紹介します。このタスクには、単一のテキストとビデオのペアと事前トレーニングされた T2I モデルのみを使用して T2V ジェネレーターをトレーニングすることが含まれます。私たちは、テキスト駆動のビデオ生成と編集のためのシンプルかつ効果的なフレームワークである Tune-A-Video を紹介します。連続ビデオを生成するために、時間的に一貫したビデオを生成できる効率的な調整戦略と構造反転を提案します。広範な実験により、私たちの方法が幅広い用途で顕著な結果を達成することが実証されました。

元のリンク: Tnue-A-Video: Text-to-Video Generation のための画像拡散モデルのワンショット調整 (Frontiers of Small Sample Vision and Intelligence による)

おすすめ

転載: blog.csdn.net/NGUever15/article/details/131419763