Text2Video-Zero: テキストから画像への拡散モデルはゼロショット ビデオ ジェネレーターです
論文: https://arxiv.org/abs/2303.13439
プロジェクト: https://github.com/Picsart-AI-Research/Text2Video-Zero
元のリンク: Text2Video-Zero: Text-to-Image 拡散モデルは Zero-Shotビデオ ジェネレーター (小さなサンプルのビジョンとインテリジェンスのフロンティアによる)
目次
記事ディレクトリ
01 既存の業務が不足していませんか?
最近のテキストからビデオへの生成方法は、計算負荷の高いトレーニングに依存しており、大規模なビデオ データセットが必要です。
02 この記事はどのような問題を解決しますか?
この論文では、ゼロショットのテキストからビデオへの生成という新しいタスクを紹介し、安定した拡散などの既存のテキストから画像への合成手法の機能を活用することにより、(トレーニングや最適化なしで)低コストの方法を提案します。 )、ビデオ領域に適しています。
03 鍵となる解決策は何ですか?
- モーションを使用してフレームの隠しコードを動的に生成し、グローバル シーンと背景時間の一貫性を保ちます。
- フレームレベルのセルフ アテンションは、前景オブジェクトのコンテキスト、外観、アイデンティティを維持するために、最初のフレームの上にある各フレームに新しいクロスフレーム アテンションを使用して再プログラムされます。
04 主な貢献は何ですか?
- テキストガイド付きビデオの生成と編集を「手頃な価格で自由に」行うことを目的とした、ゼロショットのテキストからビデオへの合成のための新しい問題設定。事前にトレーニングされたテキストから画像への拡散モデルのみを使用し、それ以上の微調整や最適化は行いません。
- 2 つの新しいポストホック技術は、潜在コードでモーション ダイナミクスをエンコードし、新しいクロスフレーム アテンションでフレームごとのセルフ アテンションを再プログラムすることにより、時間的に一貫した生成を強制します。
- 条件付きの特殊なビデオ生成や、ビデオ命令 - pix2pix、つまりテキスト命令によるビデオ編集など、さまざまなアプリケーションが私たちのアプローチの有効性を実証しています。
05 関連する仕事にはどのようなものがありますか?
- テキストから画像への生成
- テキストからビデオへの生成
上記の方法とは異なり、私たちの方法はトレーニングをまったく必要とせず、大量の計算能力や数十個の GPU を必要としないため、ビデオ生成プロセスを誰でも手頃な価格で行うことができます。この点において、Tunea Video [41] は、単一のビデオのみを調整するために必要な計算を削減するため、私たちの研究に最も近いものです。ただし、依然として最適化プロセスが必要であり、参照ビデオに大きく依存しています。
06 メソッドはどのように実行されますか?
ゼロショット Text-to-Video 問題の定式化
テキスト記述 τ と正の整数 m∈N が与えられた場合、目標は関数F \mathcal{F}を設計することです。F、出力ビデオ フレームV ∈ R mx H x W x 3 V \in R^{mxHxWx3}V∈Rm x H x W x 3 (事前定義された解像度 H×W の場合) は、時間的な一貫性を示します。
関数F \mathcal{F}を求めるにはFは、ビデオ データセットのトレーニングや微調整を必要としません。
私たちの問題定式化は、テキストからビデオへの生成のための新しいパラダイムを提供します。特に、ゼロショットのテキストからビデオへの手法は、テキストから画像へのモデルの品質向上を自然に活用します。
メソッドの詳細
単純な方法における一貫性のない外観と時間の問題を目的として、次のことを提案します。
- 導入された潜在コードx T 1 , . . . , x T m x_T^1,...,x_T^mバツT1、... 、バツTメートルグローバル シーン時間の一貫性を維持するために、モーション ダイナミクス間の調整を行います。
- 前景オブジェクトの外観とアイデンティティを維持するために、クロスフレーム アテンション メカニズムが使用されます。
全体的なフレームワークを図 2 に示します。
1) 潜在コードの動作ダイナミクス
次の手順を実行して潜在コード x T 1 を構築します: m x_T^{1:m}バツT1 : m、標準のガウス分布から独立してランダムにサンプリングするのではなく (アルゴリズム 1 と図 2 も参照)。
- 最初のフレームの潜在コードをランダムにサンプリングx T 1 x_T^1バツT1~ N ( 0 , 1 ) N(0,1)N ( 0 ,1 )。
- SD モデルを使用、x T 1 x_T^1でバツT1上記の Δt ステップ DDIM バックプロパゲーションを実行して、対応する潜在コードx T ' 1 x_{T'}^1 を取得します。バツT』1,その中T ' = T − Δ t T' = T - \Delta tT』=T−Δt. _
- グローバル シーンとカメラ モーションの方向δ = ( δ x , δ y ) ∈ R 2 \delta = (\delta_x,\delta_y) \in R^2 を定義します。d=( d×、dはい)∈R2.デフォルトのδ \deltaδ は主対角方向になります。つまり、δ x = δ y = 1 \delta_x = \delta_y = 1d×=dはい=1。
- 各フレームについて、k = 1 , 2 , ..., mk=1,2,...,mk=1 、2 、... 、δ k = λ ⋅ ( k − 1 ) δ \delta^k = \lambda \cdot(k-1)\ deltadk=私⋅( k−1 ) d、ここでλ\lambdaλはグローバル モーションを制御するハイパーパラメータです。
- モーション変換フローを構築します。最終シーケンスはx ~ T ' 1 : m \tilde{x}_{T'}^{1:m}として表されます。バツ~T』1 : m、ここでW k ( ⋅ ) W_k(\cdot)Wk( ⋅ )はベクトルδ k \delta^kdk変換のワーピング操作。
- 2 m フレームでΔ t \Delta tを実行しますΔ tステップの DDPM 順伝播、対応する潜在コードx T 2 を取得します: m x_T^{2:m}バツT2 : m。
2) フレーム全体で注意力を再プログラムする
クロスフレーム アテンション メカニズムを使用して、生成されたビデオ全体にわたって (特に) 前景オブジェクトの外観、形状、およびアイデンティティに関する情報を保存します。
再トレーニングせずに事前トレーニングされた SD を利用しながらクロスフレーム アテンションを利用するために、各セルフ アテンション層をクロスフレーム アテンションに置き換え、各フレームの注意が最初のフレームに集中します。
アテンションの定式化:
私たちのスキームでは、各アテンション層が m 個の入力を受け取るため、線形注入層はそれぞれ m 個の Q、K、V を生成します。
したがって、最初のフレームの値を他の 2m フレームの値に置き換えて、クロスフレーム アテンションを実現できます。
クロスフレーム アテンションを使用すると、オブジェクトと背景の外観、構造、およびアイデンティティが最初のフレームから後続のフレームに引き継がれ、生成されたフレームの時間的一貫性が大幅に向上します (図 10 とその付録、図 16、20、 21) 。
3) 背景のスムージング
以前の研究に基づいて、顕著なオブジェクト検出 (社内ソリューション) [39] をデコードされた画像に適用して、各フレーム M^ k の k に対応する前景マスク M k を取得します。Mk。次に、 W k W_kに従ってWk定義された使用されるモーション ダイナミクス ペアxt 1 x_t^1バツt1結果を変換してx ^ tk : = W k ( xt 1 ) \hat{x}_t^k:=W_k(x_t^1) と表現します。バツ^tk:=Wk( ×t1)。
背景のスムージングは実際の潜在コードxtk x_t^kによって実現されます。バツtk歪んだ潜在コードx ^ tk \hat{x}_t^kを背景にバツ^tk凸型の組み合わせが実現されます。つまり、次のようになります。
ここで、α \アルファαはハイパーパラメータです (実験では 0.6 として採用されました)。ガイダンスが提供されない場合、テキストからビデオを生成するときに背景のスムージングを使用します。バックグラウンド平滑化に関するアブレーション研究については、付録セクション 6.2 を参照してください。
条件付きおよび特定のテキストからビデオへの変換
ビデオ生成プロセスをガイドするために、私たちの方法を基本的な拡散プロセスに適用し、潜在コードx T 1 : m x_{T}^{1:m} をモーション情報で強化します。バツT1 : m、UNet の自己注意をクロスフレーム注意に変換します。ビデオ生成タスクに UNet を採用しながら、事前トレーニングされた ControlNet のフレームごとのレプリケーション ブランチを各フレームの潜在コードに適用し、ControlNet ブランチの出力を UNet のスキップ接続に追加します。
ビデオの説明-Pix2Pix
Prompt2Prompt [9]、directive-pix2pix [2]、SDEdit [19] などのテキストガイド付きの画像編集方法の台頭により、テキストガイド付きのビデオ編集方法が登場しました [1、16、41]。これらの方法では複雑な最適化手順が必要ですが、私たちの方法では、トレーニングや微調整を行わずに、ビデオ領域で SD ベースのテキストガイド付き画像編集アルゴリズムを採用できます。ここでは、テキストガイド付きの画像編集メソッド命令 pix2pix を使用し、それを私たちのメソッドと組み合わせます。より正確には、式 8 に従って、ディレクティブ pix2pix のセルフ アテンション メカニズムをクロスフレーム アテンションに変更します。
私たちの実験では、この適応によって編集されたビデオの一貫性が大幅に向上することがわかりました (図 9 を参照)。
07 実験結果と比較効果は何ですか?
定性的評価
テキストからビデオへの変換の場合、テキスト キューとよく一致する高品質のビデオが生成されることがわかります (図 3 と付録を参照)。たとえば、絵の中のパンダは自然に道を歩いています。同様に、エッジまたはポーズからの追加のガイダンス (図 5、6、7 および付録を参照) を使用すると、キューとガイダンスに一致する高品質のビデオを、良好な時間的一貫性とアイデンティティの保存を伴って生成できます。ビデオ Instruct-pix2pix (図 1 および付録を参照) の場合、結果として得られるビデオは、命令に厳密に従いながら、入力ビデオと比較して高い忠実度を持っています。
ベースラインと比較する
1) 定量的な比較
定量的な結果を示すために、ビデオとテキストの整合性を表す CLIP スコア [10] を評価します。CogVideo によって生成された 25 個のビデオをランダムに選択し、同じプロンプトを持つ対応するビデオを合成する方法に従います。私たちの方法と CogVideo の CLIP スコアは、それぞれ 31.19 と 29.63 です。したがって、私たちの方法は CogVideo よりわずかに優れていますが、後者には 94 億のパラメータがあり、ビデオでの大規模なトレーニングが必要です。
2) 定性的比較
私たちの方法のいくつかの結果を図 8 に示し、CogVideo [15] と定性的な比較を行います。どちらの方法もシーケンス全体で良好な時間的一貫性を示し、オブジェクトと背景の同一性を維持します。ただし、私たちの方法では、テキストとビデオの位置がより適切に一致していることがわかります。たとえば、図 8(b) では、私たちのメソッドは日光の下でサイクリングする人のビデオを正しく生成していますが、CogVideo は背景を月明かりに設定します。また、図 8(a) では、私たちの方法では雪の中を走っている人が正しく表示されていますが、CogVideo によって生成されたビデオでは雪も走っている人もはっきりと見えません。
ビデオ命令 -pix2pix の定性的結果と、フレームごとの命令 -pix2pix および Tune-AVideo との視覚的比較を図 9 に示します。struction-pix2pix はフレームごとの編集パフォーマンスに優れていますが、時間的な一貫性に欠けています。これは、スキーヤーを描いたビデオで特に顕著であり、雪と空がさまざまなスタイルと色で描かれています。当社のビデオ命令 pix2pix アプローチを使用すると、これらの問題が解決され、シーケンス全体で時間的に一貫したビデオ編集が可能になります。
Tune-A-Video は時間的に一貫したビデオ生成を作成しますが、私たちの方法よりも指示ガイダンスとの一貫性が低く、ローカル編集を作成するのが難しく、入力シーケンスの詳細が失われます。これは、図 9 (左) に示すダンサー ビデオの編集で明らかです。Tune-A-Video と比較して、私たちの方法は背景をよりよく保存します。たとえば、ダンサーの後ろの壁はほとんど変化しません。Tune-A-Video は大幅に変更された壁をペイントします。さらに、私たちの方法は、入力の詳細により忠実です。たとえば、ビデオ命令 - pix2pix は、提供されたポーズでダンサーを正確に描画し (図 9 左)、入力ビデオに登場するすべてのスキーヤーを表示します (図 9 と比較))。チューン・ア・ビデオ。Tune-A-Video の上記のすべての弱点は、付録に記載されている追加の評価でも確認できます (図 23、24)。
08 アブレーション研究は何を教えてくれますか?
定性的な結果を図 10 に示します。基本モデルのみを使用すると、つまり変更 (最初の行) がなければ、時間的一貫性を実現できません。これは、制約のないテキストからビデオへの生成において特に深刻です。たとえば、馬の外観や位置は非常に急速に変化し、背景はまったく一貫性がありません。私たちが提案したモーション ダイナミクス (2 行目) を使用すると、ビデオの一般的な概念がシーケンス全体でより適切に保存されます。たとえば、すべてのフレームで、動く馬のクローズアップが表示されます。同様に、女性の外観と中央の 4 人の人物の背景 (エッジ ガイダンスを備えた ControlNet を使用) が大幅に改善されました。
私たちが提案したフレーム間アテンション (3 行目) を使用すると、オブジェクトのアイデンティティとその外観の保持がすべてのフレームで改善されることがわかります。最後に、これら 2 つの概念 (最後の行) を組み合わせることで、最適な時間的コヒーレンスを実現します。たとえば、最後の 4 列では、生成された画像間で自然に遷移しながら、同じ背景パターンとオブジェクトの同一性が維持されていることがわかります。
09 結論
この論文では、ゼロショットのテキストからビデオへの合成問題に対して、時間的に一貫したビデオを生成するための新しい方法を提案します。私たちのアプローチは最適化や微調整を必要とせず、テキストからビデオへの生成とそのアプリケーションを誰でも手頃な価格で提供します。
私たちは、条件付きビデオ生成やプロフェッショナルなビデオ生成、ビデオ ガイダンス - pix2pix、つまりガイド付きビデオ編集など、さまざまなアプリケーションで私たちの方法の有効性を実証します。
この分野への私たちの貢献には、ゼロショットのテキストからビデオへの合成という新しい問題の定式化、時間的に一貫したビデオを生成するためのテキストから画像への拡散モデルの使用の実証、およびさまざまなビデオ合成アプリケーションにおける私たちの方法のデモンストレーションの提供が含まれます。効果の証拠。私たちは、私たちが提案する方法がビデオの生成と編集の新たな可能性を広げ、誰にとってもアクセスしやすく、手頃な価格になると信じています。
元のリンク: Text2Video-Zero: Text-to-Image 拡散モデルは、Zero-Shot ビデオ ジェネレーターです (小規模サンプルのビジョンとインテリジェンスのフロンティアによる)