I2VGen-XL

ヴィンセントのビデオはどれくらい詳しく説明できるでしょうか?最近、アリババによる研究で、1280×720 の解像度はストレスがなく、生成される効果は非常に一貫性があるという答えが得られました。 Vincent のビデオ分野が再び盛り上がってきています! Alibaba Wensheng Video Challenge Gen-2 と Pika、プレッシャーのない 1280×720 解像度、3,500 万のテキストとビデオの同期が奇跡的な効果を示す

木造建築物... (海底に沈んだ古代の難破船の写真。海洋植物が木造建築物を浸食している...) 

これらのデモは、アリババ、浙江大学、華中科技大学によって提案された Vincent ビデオ モデル I2VGen-XL から来ており、このモデルは、芸術的な絵画、ポートレート、動物、SF 写真など、さまざまなカテゴリの高品質ビデオを生成できます。等生成されたビデオは、高解像度、高解像度、滑らかさ、見た目の美しさなどの利点を備えており、幅広いビデオコンテンツ作成タスクに適しています。 Gen2 と Pika の生成効果と比較すると、I2VGen-XL で生成されたビデオはより豊かな動きを持ち、主により現実的で多様な動きが反映されていますが、Gen-2 と Pika で生成されたビデオは静的に近いように見えます。

生成された結果以外に、この研究でさらに印象的なのは、研究者がデータに費やした労力です。生成される効果の多様性を高めるために、研究者らはモデルを最適化するために約 3,500 万のシングルショット テキストとビデオのペアと 60 億のテキストと画像のペアを収集しました。これは非常に大規模なデータ セットであり、追跡調査の可能性が刺激的です。

  • 論文アドレス: https://arxiv.org/pdf/2311.04145.pdf

  • 論文ホームページ: https://i2vgen-xl.github.io/page04.html

この研究は、普及モデルの急速な発展のおかげで、ビデオ合成が最近大きく進歩したことを示しています。ただし、意味の正確さ、明瞭さ、時空間的連続性の点で依然として課題に直面しています。

この状況の理由は、一方では、適切に調整されたテキストビデオデータが欠如していること、そして他方では、ビデオ自体の複雑な内部構造により、モデルがセマンティックとセキュリティの両方を保証することが困難になっていることです。優れた品質。

上記の問題を解決するために、研究者らは SDXL 手法に触発され、一貫した空間および運動ダイナミクスと連続的な詳細を備えた高解像度ビデオを生成できるカスケード I2VGen-XL 手法を提案しました。

I2VGen-XL は、静止画像から高品質のビデオを生成するように設計されています。したがって、画像内の意図を正確に予測し、入力画像の内容と構造を維持しながら正確な動きを生成する意味的一貫性と、重要な時空間的一貫性と明瞭性の 2 つの重要な目標を達成する必要があります。 video ビデオ作成アプリケーションの可能性を確保するために重要な基本的なプロパティ。この目的を達成するために、I2VGenXL は、基礎フェーズと改善フェーズの 2 つのフェーズで構成されるカスケード戦略を通じてこれら 2 つの目標を分解します。

  1. 基本段階は、入力画像のコンテンツと主題情報を保持しながら、低解像度で生成されたビデオの意味的一貫性を確保することを目的としています。この目標を達成するために、研究者らは、高レベルのセマンティクスと低レベルの詳細をそれぞれ抽出するために、固定 CLIP エンコーダと学習可能なコンテンツ エンコーダという 2 つの階層エンコーダを設計し、それらをビデオ拡散モデルにマージしました。​ 

  2. 改善段階: ビデオの解像度を 1280×720 に高め、生成されたビデオに存在する詳細とアーティファクトを改善します。具体的には、研究者らは単純なテキストを入力として使用して独自のビデオ拡散モデルをトレーニングし、その最初の 600 のノイズ除去ステップを最適化しました。この研究では、ノイズ除去プロセスを使用することで、低解像度ビデオから時間的および空間的一貫性のある高解像度ビデオの生成を実現します。

特に:

基本ステージ。 VLDM に基づいて、この論文で設計された最初のステージは低解像度 (つまり、448×256) であり、主に、高レベルのセマンティクスと低レベルの詳細学習を含む、入力画像上のマルチレベルの特徴抽出を組み合わせることに焦点を当てています。

  1. 高度な意味学習。この研究では、CLIP のビジュアル エンコーダが意味的特徴の抽出に使用されていることが示されており、この方法では高レベルの意味論を学習できますが、画像内の細部の認識は無視されています。この問題を軽減するために、この論文では、同じ形状の相補的な特徴を学習するための追加のトレーニング可能なグローバル エンコーダーを組み込んでいます。そのアーキテクチャを表 1 に示します。

  2. 低レベルの詳細。詳細の損失を減らすために、VQGAN エンコーダー (つまり、D.Enc.) から抽出された特徴を取得し、それらを最初のフレームの入力ノイズに直接追加します。

改善段階。基本段階を経ると、多様で意味的に正確なモーションを備えた低解像度ビデオが得られます。ただし、これらのビデオには、ノイズ、時間的および空間的ジッター、歪みなどのさまざまな問題が発生する可能性があります。したがって、モデルを改善するには 2 つの主な目標があります: i) ビデオ解像度を向上させ、448 × 256 から 1280 × 720 以上に増加します; ii) ビデオの時空間的連続性と明瞭さを改善し、時間的および空間的問題を解決します. アーティファクトの問題。

ビデオ品質を向上させるために、この研究では、高品質、高解像度データを処理するために特別に別の VLDM をトレーニングし、SDEdit によって導入されたノイズ除去プロセスを最初の段階で生成されたビデオに適用しました。

この研究では、CLIP を使用してテキストをエンコードし、クロスアテンションを介して 3D UNet に埋め込みます。次に、研究者らは、基本段階の事前トレーニング済みモデルに基づいて、解像度が 1280×720 を超える厳選された高品質ビデオを使用して高解像度モデルをトレーニングしました。

さらに、この調査では、I2VGen-XL の多様性と堅牢性を強化するために、3,500 万の高品質のシングルショット ビデオと 60 億の画像も収集されました。

最後に、広範な実験評価結果は、I2VGen-XL が生成されたビデオのセマンティック精度、詳細の連続性、明瞭さを同時に強化できることを実証しています。さらに、この研究では I2VGenXL と現在のトップ手法とを比較し、その結果はすべて、さまざまなデータに対する I2VGenXL の有効性を実証しました。

実験結果

Gen2とPikaとの比較

新しい手法の有効性を証明するために、研究者らは I2VGen-XL のパフォーマンスを Gen-2 および Pika と比較しました。どちらも Vincent ビデオの分野で最も先進的な手法として認識されています。図 4 に示すように、著者らは両方の方法の Web インターフェイスを使用して、仮想絵画、現実絵画、抽象絵画を含む 3 種類の画像のビデオを生成しました。

これらの結果からいくつかの結論を引き出すことができます。 i) アクションの豊富さ: I2VGen-XL からの結果は、上の例のように、より現実的で多様なアクションを示しています。比較すると、Gen-2 と Pika によって生成されたビデオは静的に近いように見えます。これは、I2VGen-XL がより豊かな動きを実現していることを示しています; ii) ID 保存の程度: これら 3 つのサンプルから、Gen-2 と Pika が生成したビデオが静的であることがわかります。 Pika はオブジェクトのアイデンティティ特徴を正常に保存しますが、I2VGen-XL は入力画像の一部の詳細を失います。著者らは実験で、ID維持の程度と運動強度の間に一定のトレードオフがあることも発見した。 I2VGen-XL は、これら 2 つの要素のバランスをとります。

I2VGen-XL はビデオ結果を生成します。

I2VGen-XL はビデオ結果を生成します。

モデル分析の改善

図 3 は、改善フェーズの前後で生成されたビデオを示しています。これらの結果は、顔や身体の特徴の洗練化や局所的な細部のノイズの大幅な減少など、空間的な詳細が大幅に改善されたことを示しています。

改良モデルの動作メカニズムをさらに明らかにするために、この論文では、図 7 の周波数領域でこのプロセス中に生成されるビデオに発生する空間的および時間的変化を分析します。図 7a は 4 つの空間入力のスペクトルを示しており、低品質のビデオは高周波数範囲のノイズに似た周波数分布を示し、高品質のビデオは入力画像により似た周波数分布を示していることがわかります。これを図 7b に示す空間周波数分布と組み合わせると、改良されたモデルが低周波データを効果的に保存しながら、高周波データのより滑らかな変化を示していることがわかります。時間次元の観点から、図 7d は低品質ビデオ (上) と高品質ビデオ (下) の時間曲線を示しており、HD ビデオの連続性が大幅に改善されていることを示しています。さらに、図 7b と図 7e を組み合わせると、改良されたモデルでは空間領域と時間領域で低周波成分が保持され、中周波成分が減少し、高周波成分が強化されていることがわかります。これは、時空間領域のアーティファクトが主に中周波数範囲に存在することを示しています。​ 

定性分析

この研究では、人間の顔、3D 漫画、アニメーション、中国絵画、小動物、その他のカテゴリを含む、より広範囲の画像に対して実験も行われました。結果を図 5 に示します。生成されたビデオでは、画像の内容と合成ビデオの美しさが考慮されていると同時に、意味のある正確な動きも示されていることがわかります。たとえば、6 行目では、モデルは子猫のかわいい口の動きを正確にキャプチャしています。これらの結果は、I2VGen-XL が有望な一般化機能を示していることを示しています。ワオソフト アイオット http://143ai.com 

 

安定した人間の動きを生成することは、ビデオ合成における大きな課題のままです。したがって、この研究では、図 8 に示すように、人体画像に対する I2VGen-XL の堅牢性も具体的に検証します。モデルの予測と生成された人体の動きは非常に現実的であり、人体の特徴のほとんどを備えていることがわかります。

テキスト - ビデオ

現在、テキストからビデオへの合成が直面している主な課題の 1 つは、高品質のビデオとテキストのペアを収集することであり、これにより、ビデオとテキストの間で意味論的な整合を達成することが、画像合成と比較してより困難になります。したがって、安定拡散などの画像合成技術と画像からビデオへの合成を組み合わせると、結果として得られるビデオの品質を向上させることができます。実際、プライバシーを尊重するため、この研究のほぼすべてのサンプルは 2 つの組み合わせから生成されました。さらに、図 6 はこの記事によって別に生成されたサンプルであり、ビデオとテキストが高い意味的一貫性を示していることがわかります。

 

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/135031366