ビデオ生成原理の分析: Gen2、Emu Video から PixelDance、SVD、Pika 1.0、W.A.L.T まで

序文

たとえば、Vincent Video が爆発的に増え始めていることを考えると、11 月が Vincent Video で最も人気のある月です。

  • 11 月 3 日、Runway の Gen-2 はマイルストーン アップデートをリリースし、4K の超リアルな定義作品をサポートしました (Runway は Stable Diffusion の初期バージョンの開発者であり、Stability AI はその後の SD バージョンを開発しました)。
  • 11月16日、MetaはWenshengビデオモデルEmu Videoをリリースしました。
  • 11 月 18 日、ByteDance は PixelDance を途中で開始しました
  • 11 月 21 日、Stable Diffusion の後続バージョンを開発および保守する Stability AI は、独自の生成ビデオ モデルである Stable Video Diffusion (SVD) をついにリリースしました。

    写真

さらに、複数の B エンド クライアントが Qiyue にアプローチし、Vincent Video アプリケーションの開発を支援したいと考えています。そのため、最初のプロジェクト チームは、AIGC モデルの後に Vincent Video プロジェクトを開発し、最終的には Vincent 3D と Vincent Digital を接続することを計画しています。人々。

もちろん、当社には今でも 3 つの主要なプロジェクト チームがあります

  1. 外部に公開されている AIGC モデル生成システムに加えて、Vincent Picture、Vincent Video、Vincent 3D、Digital Human がすべて最初のプロジェクト チームに参加しています
  2. 論文レビュー用の GPT ( 現在、第 2 バージョン「 7 月の論文レビュー GPT バージョン 2: Meta Nougat から GPT4 が Mistral までレビュー済み)」を反復中です。 、LongLora Llama)、その後の AI エージェント商用プロジェクトを含む、第 2 プロジェクト チーム
  3. エンタープライズ マルチドキュメント ナレッジ ベース Q&A (現在さまざまな既知の問題を解決中)、第 3 プロジェクト チームに所属

パート 1 ビデオが生み出した iPhone の瞬間: Runway が Gen-1 と Gen-2 を連続リリース

1.1 Gen-1: 既存の 3D アニメーションとモバイル ビデオの AI 編集

2023 年 2 月、以前に安定拡散の初期バージョンを開発した Runway は、元のビデオに基づいて希望するビデオを編集できる初の AI 編集モデル Gen-1 を提案しました。粗い 3D アニメーションであっても、携帯電話で撮影した不安定なビデオであっても、Gen-1 はそれを信じられないほどの効果にアップグレードできます (もちろん、この背後にある理由は、Gen1 が画像とビデオで共同トレーニングされているためです)。

たとえば、Gen-1 はいくつかの梱包箱を使用して工場のビデオを生成し、崩壊を魔法に変えることができます。

1.1.1 Gen-1 の仕組み: 画像モデルにタイムラインを追加し、画像とビデオに対して共同トレーニングを実行します。

Gen-1 に対応する論文は次のとおりです:拡散モデルを使用した構造およびコンテンツ誘導ビデオ合成 ちなみに、この論文を Gen2 の論文と混同する記事もありますが、実際には、Runway は Gen-1 の論文しか掲載しておらず、2 つの論文は 23 年末までに掲載されていません。

下図に示すように、潜在ビデオ拡散モデル(潜在ビデオ拡散モデル)をベースにしており、下図中段の元の入力画像を与えることで、テキストガイダンスによりビデオを生成することができます。下の図の上部、または下の図の下部を介してビデオを生成するためのイメージガイドの一部

どうやって?

  • まず、テキスト ガイドを通じてビデオを生成できる理由は、テキスト ガイドによる画像生成のための一連の準備作業 (テキスト条件付きモデル、 DALL-E2 と安定拡散により、初心者ユーザーでもテキスト プロンプトを入力するだけで詳細な画像を生成できます)。結局のところ、潜在拡散モデルは、知覚的に圧縮された空間で画像を合成する効率的な方法を提供します
  • 2 番目に、タイムラインを備えた事前トレーニング済み画像モデル (事前トレーニング済み画像モデルへの時間レイヤー) とジョイントを導入します。画像とビデオに関するトレーニング " は、字幕なしのビデオと、ペアになった「テキスト画像」の字幕なしビデオとペアになったテキスト画像データの大規模なデータセットに対するトレーニングを意味します)」を使用して、潜在拡散モデルをビデオ生成まで拡張します。

    Gen1 は、制御可能な構造とコンテンツを意識したビデオ拡散モデルを提案します (我々は、制御可能な構造とコンテンツを提案します) - 認識ビデオ拡散モデル)
    同時に、推論段階で、サンプル画像またはテキストに基づいてビデオを変更することは、ビデオは、ビデオごとに追加のトレーニングや前処理を行わずに、完全に推論段階で実行されます。つまり、編集はビデオごとの追加のトレーニングや前処理を行わずに完全に推論時に実行されます) 単眼の奥行き推定テクノロジーを使用して構造を表現し、事前トレーニング済みのニューラル ネットワーク予測埋め込み表現コンテンツを使用することを選択します (単眼の奥行き推定とコンテンツで構造を表現することを選択します)ちなみに、事前トレーニングされたニューラル ネットワークによって予測されたエンベディングを使用します: 単眼奥行き推定はコンピューター ビジョン テクノロジであり、単一のカメラのみを使用してキャプチャされた 2 次元画像からシーンの 3 次元奥行き情報を推測することを目的としています。)

  • 次に、ビデオ生成プロセス中にいくつかの制御モードを提供します
    まず、画像合成モデルと同様に、ビデオのコンテンツを推測できるようにモデルをトレーニングします。外観またはスタイル、および一致するユーザー提供の画像またはテキスト プロンプト
    次に、拡散プロセスにヒントを得て、情報隠蔽プロセスが構造表現に適用され、モデルが特定の条件にどの程度準拠しているかを選択します。構造 (モデルが特定の構造にどれだけ強く従うかを選択できるようにするために、構造表現に情報を隠すプロセスを適用します)
    最後に、推論プロセスも、カスタム ガイダンス メソッドを通じて時間的一貫性を制御できるように調整されており、分類子を使用しないガイダンスからインスピレーションを得ています。生成されたクリップの一貫性)、これは次と同等です。時間、内容、構造の統一された調整を実現する

1.1.2 Gen1の学習過程と推論過程の詳細説明

モデルの目標は、ビデオの構造を維持することです (構造とは、一般に、オブジェクトの形状や位置など、ビデオの幾何学的および動的特性を指します)およびその時間的変化 a>)、ビデオのコンテンツを編集します (コンテンツとは、通常、ビデオの外観と意味的特徴を指します。オブジェクトの色、スタイル、シーンの明るさ)

この目標を達成するには、 構造表現sとコンテンツ表現を学習する必要があります。 2> 生成モデル。入力ビデオからその構造表現を推測し、ビデオの説明テキストを編集します。 以下に示すように、変更します (編集内容を説明するテキスト プロンプトに基づいて変更します。)。cバツp(x \mid s, c)sc

  • 上図の左側のトレーニング プロセスでは、入力ビデオ x が固定エンコーダを使用して にエンコードされ、そして に拡散されます。 )< /span>、モデルは潜在空間での拡散プロセスを逆転することを学習します で、クロス アテンション ブロックによって提供されます。 次に、MiDaS で取得した深度マップをエンコードすることで構造表現 s を抽出し、CLIP でフレームの 1 つをエンコードすることでコンテンツ表現 c を抽出します。 ( 一方、構造表現は、「MiDaS を使用して取得された深度マップ」をエンコードし、CLIP を使用してフレームの 1 つをエンコードすることによって抽出され、コンテンツ表現を抽出します。z_0z_t
    SC
    Sz_tC
  • 上図の右側の推論プロセスでは、入力ビデオSの構造も同様に提供されます。テキストでコンテンツを指定するには、事前の)を介してCLIPテキスト埋め込みを画像埋め込みに変換します。
1.1.2.1 潜在的な拡散モデルの検討

拡散モデルの順拡散過程は次のように定義されます。

q\left(x_{t} \mid x_{t-1}\right):=\mathcal{N}\left(x_{t}, \sqrt{1-\beta_{t}} x_{t-1 }、\beta_{t} \mathcal{I}\right)

正規分布に一致するノイズを各サンプルにゆっくりと追加しx_{t-1}x_t を取得します。この順拡散プロセスは、マルコフ連鎖、分散のシミュレーションをシミュレートします。ノイズは\beta_{t}、一方t \in\{1, \ldots, T\}

逆の処理については、次の式で定義されます。

\begin{array}{c} p_{\theta}\left(x_{0}\right):=\int p_{\theta}\left(x_{0: T}\right) d x_{1: T } \\ p_{\theta}\left(x_{0: T}\right)=p\left(x_{T}\right) \prod_{t=1}^{T} p_{\theta}\left (x_{t-1} \mid x_{t}\right) \\ p_{\theta}\left(x_{t-1} \mid x_{t}\right):=\mathcal{N}\left (x_{t-1}, \mu_{\theta}\left(x_{t}, t\right), \Sigma_{\theta}\left(x_{t}, t\right)\right) \end {配列}

そのうち、分散は固定されています\Sigma_{\theta}\left(x_{t}, t\right)。学習する必要があるのは平均値だけです\mu_{\theta}\left(x_{t}, t\right)。ターゲットを最適化するために必要な損失関数はa>

L:=\mathbb{E}_{t, q} \lambda_{t}\left\|\mu_{t}\left(x_{t}, x_{0}\right)-\mu_{\theta} \left(x_{t}, t\right)\right\|^{2}

最終的にはに変換されました

注意: 上記の拡散モデル DDPM の導出についてご質問がある場合は、この記事の第 2 部「AI 描画能力の起源: から」を参照してください。 VAE、拡散モデル DDPM、DETR から ViT/Swin トランスへ》、DDPM の各ステップの導出は非常に詳細です

1.1.2.2 時空間潜在拡散

ビデオ フレームの分布を正しくモデル化するには、次の作業を行う必要があります。

  1. 画像アーキテクチャを拡張するために時間レイヤを導入します。これらの時間レイヤはビデオ入力に対してのみ有効ですが、オートエンコーダは固定されたままで、ビデオ内の各フレームを独立して処理します。
    私たちは、ビデオ入力に対してのみアクティブになる時間レイヤーを導入することにより、画像アーキテクチャを構築します。他のすべてのレイヤーは画像モデルとビデオ モデルの間で共有されます。オートエンコーダーは固定されたままで、ビデオ内の各フレームを独立して処理します。
  2. UNet は主に、残差ブロックと変換ブロックという 2 つのモジュールで構成されます。これらは、時間にわたる 1 次元の畳み込みと時間にわたる 1 次元のセルフ アテンションを追加することによってビデオに拡張されます (時間にわたる 1D 畳み込みと時間にわたる 1D セルフアテンションの両方を追加することで、それらをビデオに拡張します)

    各残差ブロックでは、上の図の左側に示すように、各 2D 畳み込みの後に 1 つの時間畳み込みを導入します ( 各 2D 畳み込みの後に時間畳み込み )
    同様に、上の図の右側に示すように、各 2D 変換ブロックの後に、時間的な 1D 変換ブロック ( 時間軸に沿った空間的な対応物を模倣します)、フレーム インデックスの学習可能な位置エンコーディングを時間変換ブロックに入力します。< a i=6> はと同等です。   各空間畳み込みの後に 1 次元の時間畳み込みを追加する  各空間アテンション レイヤーの後に 1 次元の時間畳み込みを追加する 時間アテンション レイヤー


    \rightarrow
    \rightarrow
  3. 最終的な実装では、2 つの状況を均一に処理するために、画像は 1 つのフレームのみを含むビデオとして扱われます。
    バッチ サイズは b、フレーム数は n、チャネル数は c、空間解像度は w ✖️ h、つまり、形状は b × です。 n × c × h × w のバッチ化されたテンソルはw × h (つまり、形状 b × n × c × h × w) として再配置され、(b · n) × c × h × w に再配置されます。空間レイヤーの場合は (b · h · w) × c × n に、時間的な畳み込みの場合は (b · h · w) × n × c に、時間的セルフアテンションの場合は (b · h · w) × n × c

// 更新予定

1.1.2.3 コンテンツと構造の表現

拡散モデルは、p(x \mid s, c) などの条件付き分布のモデル化に非常に適しています。大規模なビデオとテキストのペア データ セットが不足しているため、ビデオ データのみに限定できます。字幕なし。 トレーニングを実施

  1. つまり、私たちの目標は、ユーザーが提供するビデオ編集用のテキスト プロンプトに基づいてビデオを編集することですが、依然として問題に直面しています。つまり、ビデオ トリプル、編集プロンプト、および編集プロンプトのトレーニング データがありません。生成された出力も、ビデオとテキストの字幕のペアもありません (したがって、目的は編集されたビデオを説明するテキスト プロンプトに基づいて入力ビデオを編集することですが、トレーニング データもありません)ビデオ、その編集プロンプト、およびその結果の出力を含む 3 つの要素、さらにはビデオとテキスト キャプションのペア)
  2. したがって、トレーニング ビデオ自体から構造とコンテンツの表現を導き出す必要があります。バツ、つまり s=s(x)c=c(x)、つまり、 損失関数はとなります。\lambda_{t}\left\|\mu_{t}\left(\mathcal{E}(x)_{t}, \mathcal{E}(x)_{0}\right)-\mu_{\ theta}\left(\mathcal{E}(x)_{t}, t, s(x), c(x)\right)\right\|^{2}
  3. 対照的に、推論中は、 構造s とコンテンツcが入力ビデオそして とテキスト プロンプトから導出されます。 /span>ts(y)c(t)
    z \sim p_{\theta}(z \mid s(y), c(t)), \quad x=\mathcal{D}(z)

コンテンツプレゼンテーションレベル

  1. テキスト入力 x とビデオ入力 x の両方からコンテンツ表現を推測するために、CLIP の画像埋め込みを使用してコンテンツを表現します。
    ビデオ入力の場合、入力フレームはランダムです。テキスト埋め込みから画像埋め込みをサンプリングできるようにする以前のモデルをトレーニングできる方法と同様に、トレーニング中に選択されます。このアプローチにより、テキストではなく画像入力によって編集を指定できるようになります。このアプローチにより、
  2. 更新予定...

// 更新予定

1.2 Gen-2 は素晴らしいアップグレードを取得 - ビデオを最初から生成できるようになりました

多くの学生はまだ Gen-1 を体験する時間がありません。予想外なことに、2023 年 3 月に、Runway はすぐに Gen-2 の内部ベータ版を開始し、6 月に正式に一般公開されました (< a i=1>これは、Gen-2 への滑走路の紹介ページです:https://research.runwayml.com/gen2) (Gen-1 と比較) Gen-2 は素晴らしいアップグレードを受け、ビデオを最初から生成できるようになりました。昨年リリースされた安定したディフュージョン/ミッドジャーニーがヴィンセント写真の代表だとすれば、Gen2 はヴィンセントビデオの最初の代表です。

  1. Gen-2 が最初にリリースされたときは、4 秒間のビデオしか生成できませんでしたが、各ユーザーの無料トライアルの制限は 105 秒で、約 26 個の Gen2 ビデオを生成できます。
  2. 8 月に、生成されるビデオの最大長が 4 秒から 18 秒に増加しました。
  3. 9月にはカメラの位置や移動速度を制御できる新たなディレクターモードが追加された。

1.2.1 Gen-2 に基づく 8 つのビデオ生成モード

  1. テキストからビデオへ
  2. テキスト + 画像をビデオに変換
  3. たとえば、次の画像を入力します。

    Gen-2 は、上の画像に基づいて対応するビデオを生成できます。

    Gen2:画像からビデオへ

  4. 様式化
  5. 絵コンテ
  6. マスク
  7. 与える
  8. カスタマイズ

11 月 23 日の 1.2.2 Gen-2 アップデート: 4K 超高解像度ビデオを生成し、好きな場所に移動

Gen-2 は 11 月に 2 つのメジャー アップデートを連続してリリースします

  1. 11 月 3 日、Runway の Gen-2 は、4K の超リアルな解像度作品をサポートするためのマイルストーン アップデートをリリースしました。
  2. 11 月 21 日には、「どこに移動してもペイント」というモーション ペンのリフレッシュ機能が開始され、生成されたモデルの制御性における重要なマイルストーンとなりました。

    写真

パート 2 Meta が生成ビデオ モデルをリリース: Emu Video

メタ社は11月16日、柔軟な画像編集(「ウサギ」を「トランペットを吹くウサギ」、さらに「虹色のトランペットを吹くウサギ」など)に対応した「Vincent」ビデオモデル「Emu Video」をリリースした。 、テキストと画像に基づいた高解像度ビデオの生成もサポートしています(「トランペットを吹くウサギ」を楽しそうに踊らせるなど)

それでは、その背後にある原理は何でしょうか?実際には 2 つのタスクが含まれます

  1. 「Emu Edit」と呼ばれるモデルにより、柔軟な画像編集を実現します。ローカルおよびグローバル編集、背景の削除と追加、色とジオメトリの変換、検出とセグメンテーションなどを含む、テキストによる画像の自由な編集をサポートします。
    さらに、指示に正確に従うことができ、命令に関係のない入力画像内のピクセルは変更されません (ダチョウにスカートを履くなど)。

    写真

  2. 高解像度のビデオは「Emu Video」と呼ばれるモデルによって生成されます。 Emu Video は拡散モデルベースの Vincent ビデオ モデルで、テキストに基づいて 512x512 の 4 秒の高解像度ビデオを生成できます。また、Runway の Gen-2 や Pika Labs の生成効果と比較して、生成品質とテキスト忠実度の点で Emu Video の方が高いスコアを獲得する可能性があることを示す人による評価もあります。生成されるものは次のとおりです。

    写真

Meta は公式ブログの中で、ソーシャル メディア ユーザーが独自のアニメーションや絵文字を生成したり、自分の希望に応じて写真や画像を編集したりできるなど、これら 2 つのテクノロジーの応用の可能性を期待していました。もちろん、アニメーション/絵文字の生成に関しては、Meta が前回の Meta Connect カンファレンスで Emu モデルをリリースしたときにも言及しました (参照:Meta ChatGPTバージョンはこちら: Llama 2 の祝福、Bing 検索へのアクセス、Xiao Zha のライブ デモンストレーション)

写真

次に、この2つのモデルをそれぞれ紹介します。

2.1 Emu Edit: 正確な画像編集

2.1.1 InstructPix2Pix と比較した利点: 命令のより正確な実行

Emu Edit に対応する論文は「Emu Edit: Precise Image Editing via Recognition and Generation Tasks」で、そのプロジェクト アドレスは次のとおりです。 https://emu-edit.metademolab.com/

論文に記載されているように、画像編集は今日毎日何百万もの人々によって使用されています。ただし、一般的な画像編集ツールは、かなりの専門知識が必要で使用に時間がかかるか、特定のフィルターなどの事前定義された一連の編集操作しか提供せず、機能が非常に制限されています。幸いなことに、今日の命令ベースの画像編集 (命令ベースの画像編集) では、ユーザーが自然言語命令を使用してこれらの制限を解決できるようにしようとしています。たとえば、ユーザーはモデルに画像を提供し、「エミューに消防士の衣装を着せてください」などのコマンドでモデルに指示できます。

ただし、InstructPix2Pix のような命令ベースの画像編集モデルは、与えられたさまざまな命令を処理するために使用できますが、

  1. 指示を正確に解釈して実行することが難しいことが多い
     

    ところで、instructable - pix2pix は、GPT-3 と Prompt-to-Prompt の両方を活用して大規模な合成データセットの命令ベースの画像編集モデルを生成することで開発した、命令可能な画像編集モデルを導入しました。このデータセットを使用して、指示に従うことができる画像編集モデルをトレーニングします。
    合成データセットを使用する InstructPix2Pix とは異なり、Mag-icBrush は人間がオンライン画像編集ツールを使用することを要求することでこれを行います。手動で注釈を付けた指示ガイド付き画像編集データセットと、このデータセットの指示可能なものを微調整する - pix2pix は画像編集機能を向上させることができます

  2. さらに、これらのモデルの汎化能力は限られており、通常はトレーニング中のタスクとはわずかに異なるタスクを完了することができません。たとえば、下の写真では、小さなウサギが虹色のトランペットを演奏するように求められると、他のモデルは次のいずれかを実行します。ウサギを虹色に染めるか、直接虹色のトランペットを生成します

これらの問題を解決するために、Meta は、さまざまなタスクでトレーニングされた最初の画像編集モデルである Emu Edit を導入しました。前述したように、Emu Edit は、ローカルおよびグローバル編集、背景の削除や追加などのタスクを含む、指示に従って自由形式の編集を実行できます。 、色の変化と幾何学的変換、検出とセグメンテーション。

今日の多くの生成 AI モデルとは異なり、Emu Edit は指示に正確に従い、指示から独立した入力画像内のピクセルが変更されないようにします。例えば、下の写真の左側は、ユーザーが「子犬を草むらからどかしてください」と指示したものですが、物体を取り除いた後も写真にほとんど変化はありません。 , 画像の左下隅にある犬が削除されると、テキストが表示され、画像の背景を変更する場合も、Emu Edit で非常にうまく処理できます。

写真写真

2.1.2 16 の異なるタスクをカバーする 1,000 万規模のデータセットを開発する

市場にある既存データの規模、多様性、品質には限界があることを考慮し、このモデルをトレーニングするために、Meta は 16 の異なるタスクと 1,000 万の合成サンプルを含むデータセットを開発しました。 a> a>< a i=3>データセット内の各例 (cI , cT , x, i) には、入力画像 cI 、テキスト命令 cT 、ターゲット画像 x、およびタスク インデックス i (16 のうち)<が含まれています。 /span> "、具体的には:各サンプルには、入力画像、実行されるタスクの説明 (つまり、テキスト命令)、およびターゲット出力画像、タスク インデックスが含まれています

  1. タスク リスト
    16 個のタスクは、領域ベースの編集、自由形式の編集、ビジュアル タスクの 3 つの主なカテゴリに分類されます。
    領域ベースの編集
    ローカル : あるオブジェクトを別のオブジェクトに置き換えたり、オブジェクトの属性を変更したりする (例: 「笑顔にする」)
    削除: 画像からオブジェクトを削除します。
    追加: 画像に新しいオブジェクトを挿入します。
    テクスチャ : オブジェクトの構造に影響を与えることなく、オブジェクトの視覚的特徴を変更すること (例: ペイント、塗りつぶし、)
    物体を覆う)
    背景: シーンの背景を変更する
    自由形式の編集
    グローバル : 画像全体に影響する編集命令、またはマスクを使用して説明できない編集命令 (例: 「見てみましょう
    夏には」)
    スタイル: 画像のスタイルを変更します
    テキスト編集 : これには、テキスト関連の編集タスクが含まれます
    テキストの追加、削除、交換、変更など
    テキストのフォントと色
    ビジョンタスク
    検出 : 画像内の特定のオブジェクトを識別し、長方形の境界ボックスでマークします
    セグメント : 画像内のオブジェクトを分離してマークする
    カラー: シャープ化やぼかしなどのカラー調整
    イメージからイメージへの変換 : スケッチからイメージへ、デプスマップからイメージへ、法線マップからイメージへなど、双方向のイメージタイプ変換を伴うタスク、イメージへのポーズ、イメージへのセグメンテーション マップなど
  2. テキスト命令の生成
    編集命令を生成するには、対話に最適化された Llama 2 の 700 億パラメータ バリアントを利用します。具体的には、LLM のタスクの説明、いくつかのタスクを提供します。特定の見本と現実的な画像の説明
    多様性を高めるために、見本をサンプリングし、順序をランダム化します。このような入力が与えられると、LLM は次の出力を期待します: (1) 編集指示、(2) 理想的な出力画像の出力タイトル、(3) どのオブジェクトを更新または元の画像に追加する必要があるか
    以下は彼らが設計したプロンプトです
    def get_content_instruction(new_prompt):
        optional_verbs = choice(["include", "place", "position", "set", "incorporate", "alongside", 
                                 "give", "put", "insert", "together with", "with", "make", "integrate", 
                                 "have", "append", "make", "add", "include"])
    
        # system message #
        system_message = (
            f"<<SYS>>\n"
            "You are an assistant that only speaks JSON. Do not write normal text. The assistant answer is "
            "JSON with the following string fields: 'edit', 'edited object','output'. Here is the latest "
            "conversation between Assistant and User.\n"
            "<</SYS>>"
        )
    
        # introduction message #
        intro_message = (
            f"[INST]User: Hi, My job to take a given caption ('input') and to output the following: an "
            f"instruction for {optional_verbs} an object to the image ('edit'), the object to {optional_verbs} "
            "('edited object'), and the caption with the object ('output'). Please help me do it. "
            "I will give you the 'input', and you will help. When you reply, use the following format: "
            "{\"edit\": '<instruction>', 'edited object': '<object>', 'output': '<caption>'}[/INST]\n"
            "Assistant: Sure, I'd be happy to help! Please provide the actual input caption you'd like me to "
            f"read and I'll assist you with writing an instruction to {optional_verbs} an object to the "
            "image, writing the added object and writing the caption with the object."
        )
    
        # shuffling #
        random.seed(torch.randint(1 << 32, ()).item())
        shuffle(few_shot_examples)
        few_shot_examples = few_shot_examples[:int(len(few_shot_examples) * 0.6)]
        prompt = system_message + intro_message + "".join(few_shot_examples)
    
        # add the test prompt #
        prompt += f"[INST]User: {new_prompt}[/INST]"
    
        return prompt
  3. 画像ペアの生成
    入力画像と編集画像のペアを作成する場合、重要な前提条件は、2 つの画像が特定の要素上にのみ表示されるか、位置が異なることを確認し、同時に、画像の配置を維持することです。他のすべての点でも同じです。以前のコマンドベースの画像編集方法は、プロンプトツープロンプト (P2P) に依存して画像編集データセットを構築していました。
    これは、入力とデータのペアを作成する際の重要な前提条件です。編集された画像は、2 つの画像が特定の要素または位置でのみ異なり、他のすべての点では同一であることを保証します。
    以前の命令ベースの画像編集方法[Instructpix2pix: 画像編集手順に従う方法を学習] プロンプトツープロンプト (P2P) を利用して画像編集データセットを構築します。
    P2P は、入力画像生成から画像編集データセットにクロス アテンション マップを挿入します。


    ローカル編集をサポートするために、P2P はクロスアテンション マップ
    P2P は、入力画像のタイトルと編集された画像のタイトルの間の単語ごとの位置合わせに依存します (「猫が自転車に乗る」など) "a cat "Ride a car")、編集された画像ペアを生成します
    ただし、クロス アテンション マップ、生成されたマスクは多くの場合不正確です
    ローカル編集をサポートするために、P2P はさらにクロス アテンション マップに基づいて編集部分のマスクを近似します。アテンション マップを作成し、このローカル エリアへの編集を制限します。
    P2P は、入力画像のキャプションと編集された画像のキャプションの間の単語間の位置合わせに依存します (例: 「自転車に乗っている猫」と「車に乗った猫」)を使用して編集画像ペアを作成します。
    ただし、単語間の位置合わせがない場合、クロスに依存するため、結果として得られるマスクが不正確になる傾向があります。 - アテンション マップ。


    さらに、ほとんどの画像編集タスクでは単語間の位置合わせが実際的な前提ではないため、このアプローチでは構造と同一性を維持できないことがよくあります。 この課題に対処するために、この論文では、編集プロセスの前に適用されるマスク抽出方法を提案します。 私たちのアプローチには以下が含まれます。 (i)< a i=22>LLM を介した編集指示から編集領域を特定し、画像を生成する前に対応するマスクを作成します。、(ii) 編集プロセス中にこれらのマスクを統合して、編集領域と画像のシームレスなブレンドを確保します。元の画像さらに、ほとんどの画像編集タスクでは単語間の位置合わせが実際的な前提ではないため、このアプローチでは構造と同一性を維持できないことがよくあります。 =25> この課題に対処するために、編集プロセスの前に適用されるマスク抽出方法を提案します。 私たちのアプローチには以下が含まれます。 (i) LLM による編集命令による編集領域の取得と、画像生成前に対応するマスクの作成。、(ii) 編集プロセス中にこれらのマスクを統合して、編集領域と元の画像のシームレスな融合を保証します。< /span>








  4. さらに、拡張やガウス ブラーなどのさまざまな技術を利用してマスクを改善しガウス ブラーを使用して、マスクを微調整します。データセットの忠実性を確保するために包括的なフィルタリング手法を採用します (当社では、データセットの忠実度) これには以下が含まれます: (i) タスク予測子 (セクション 4.2) を使用して、別のタスクに属する必要がある命令内のサンプルを再割り当てします。つまり、 別のタスクに属します (ii) CLIP フィルタリング メトリクス [2] を適用します。つまり、CLIP を適用します。フィルタリング メトリクス [2] (iii) 入力画像の深度マップと編集画像の間の L1 距離に基づいた構造保持フィルタリングの採用 (iv) ) 画像検出器を適用して、ディレクティブ Local タスクで指定されたオブジェクトに対する要素の存在 (追加タスク内)、不在 (削除タスク内)、または置換 (削除タスク内) を検証します。つまり、画像を適用します。命令で指定されたオブジェクトに従って、要素の存在 (追加タスク内)、不在 (削除タスク内)、または置換 (ローカル タスク内) を検証する検出器。 このプロセスはフィルタリングされます。データの 70% が抽出され、最終的なデータセットは 1,000 万サンプルになります









2.1.3 モデル アーキテクチャ: 潜在拡散モデルに基づいて、最初に事前トレーニングされ、次に数千の注釈付き画像を通じて微調整されます。

事前トレーニング フェーズで始まり、品質の微調整フェーズで終わる 2 段階のアプローチ (エミュ モデルは、事前トレーニング フェーズと品質微調整ステージで終了します)。このアプローチの鍵は、微調整データセットは比較的小さく、数千枚の画像しか含まれていないが、並外れた品質でなければならず、多くの場合人間による注釈が必要であることです

  1. エミュは、高解像度画像の生成をサポートするために潜在拡散モデル アーキテクチャ [潜在拡散モデルを使用した高解像度画像合成] を採用しています。エンコーダ E およびデコーダ D を備えた 16 チャネル オートエンコーダが組み込まれています。
    高解像度画像生成をサポートし、エンコーダ E およびデコーダ D を備えた 16 チャネル オートエンコーダを組み込みました。
  2. 28 億個のパラメータ θ を含む大規模な U-Net ϵθ、CLIP ViT-L および T5-XXL からのテキスト埋め込み、および 11 億枚の画像を含む大規模な事前トレーニング データセットにより、モデルの学習が促進されます。複雑なセマンティクスとより詳細な詳細に応じて、ノイズ オフセット戦略 (ノイズ オフセット戦略) は、高コントラストで美しい画像の生成に役立ちますノイズ オフセット戦略 a> a>ノイズ オフセット戦略ノイズ オフセット戦略
    CLIP ViT-L [18] および T5- からのテキスト埋め込み 28 億パラメータ θ を備えた大規模な U-Net ϵθ XXL [19]、および 11 億枚の画像からなる大量の事前トレーニング データセットにより、
  3. 画像のエンコードされた潜在を指定すると、 z = E(x)、拡散プロセスによりノイズの多い潜在 zt が生成され、ノイズ レベルはタイムステップ t < とともに増加します。 /span>Emu Editここで、ϵ ∈ N(0, 1) は拡散プロセスによって追加されるノイズであり、y = (cT , cI , x) は、データセットからの命令、入力画像、ターゲット画像のトリプレットです。実際には、Emu Edit の重みを Emu ここで、∈N(0,1) は拡散プロセスの結果であり、y = (cT, cI, x) は命令、入力画像、データセットからのターゲット画像のトリプレット。実際には、Emu の重みを使用して Emu Edit の重みを初期化します次の最適化問題を最小化する必要があります) エミュを命令ベースの画像編集モデルに変換するには、変更される画像 cI と命令 cT を条件とします エミュ T.



    \min _{\theta} \mathbb{E}_{y, \epsilon, t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t, E\left (c_{I}\right), c_{T}\right)\right\|_{2}^{2}\right]

2.1.4 トレーニングの 2 つの鍵: マルチタスク トレーニング、タスク埋め込みベクトル融合、クロス アテンションによるタイム ステップ埋め込み

トレーニング方法には主に 2 つの鍵があります。

  • まず、16 のタスクごとに独自のデータ管理パイプラインを開発しました。Meta は、すべてのタスクで単一のモデルをトレーニングした方が、各タスクでエキスパート モデルを個別にトレーニングするよりも良い結果が得られることを発見しました。また、トレーニング タスクの数が増えると、Emu Edit のパフォーマンスも向上します。
  • 第 2 に、さまざまなタスクを効果的に処理するために、学習されたタスクの埋め込みの概念が導入され、生成プロセスを正しい生成タスクの方向に導きます。
    第 2 に、この幅広いタスクを効果的に処理するために、学習されたタスクの埋め込みの概念を導入します。これは、生成プロセスを正しい生成タスクに向けて導くために使用されます。

    具体的には、 タスクごとに、一意のタスク埋め込みベクトルが学習され、クロスアテンション相互作用を介してモデルに統合され、タイム ステップの埋め込みに追加されます< a i=4>(固有のタスク埋め込みベクトルを学習し、それをクロスアテンションインタラクションを通じてモデルに統合し、タイムステップ埋め込みに追加することで)

    学習されたタスク エンベディングにより、自由形式の命令から適切な編集意図を正確に推測し、正しい編集を実行するモデルの能力が大幅に強化されます。
    このプロセス中、モデルの重みは変更されず、1 つのタスク エンベディングのみが更新されます。新しいタスクに適応します。実験では、Emu Edit が超解像度などの新しいタスクにすぐに適応できることが示されています。

以下では、学習済みタスクの埋め込み (Learned Task Embedding) を中心に説明します。


生成プロセスを正しい方向に導くために、データセット内の各タスクの埋め込みベクトルを学習します。

  • トレーニング中に、データセット内のサンプルを指定して、タスク インデックスを使用します私エンベディング テーブルからタスクのエンベディング ベクトルを取得しますv_i 、モデルの重みと組み合わせて最適化します (タスク インデックス i を使用して、埋め込みテーブルからタスクの埋め込みベクトル vi を取得し、モデルの重みと組み合わせて最適化します。 > )
  • 具体的には、クロスアテンション インタラクションを介してタスクを U-Net に埋め込み、それをタイム ステップ エンベディングに追加します (追加の条件を介してタスク エンベディングを導入することでこれを行います)具体的には、クロスアテンションインタラクションを介してタスク埋め込みを U-Net に統合し、タイムステップ em-beddings ) に追加します。

最適化問題は次のように更新されます。

\min _{\theta, v_{1}, \ldots, v_{k}} \mathbb{E}_{\hat{y}, \epsilon, t}\left[\left\|\epsilon-\epsilon_ {\theta}\left(z_{t}, t, E\left(c_{I}\right), c_{T}, v_{i}\right)\right\|_{2}^{2} \右]

ここでk はデータセット内のタスクの総数、\hat{y}=\left(c_{I}, c_{T}, x, i\right) は入力画像、入力指示テキスト、ターゲット画像、およびタスク インデックスです。データセット 4 倍

// 更新予定

2.2 エミュビデオ: 最初に画像を生成し、次に画像とテキストからビデオを生成します

2.2.1 EMU VIDEO:明示的な画像コンディショニングによるテキストからビデオへの生成の因数分解

大規模なヴィンセント グラフ モデルは、ネットワーク規模の画像とテキストのペアでトレーニングされ、高品質で多様な画像を生成しますが、問題は

  1. これらのモデルは、ビデオとテキストのペアを使用することでテキストからビデオ (T2V) の生成にさらに適合させることができますが、ビデオ生成は品質と多様性の点で画像生成よりもまだ遅れています。
    vs. 画像生成と比較すると、ビデオ生成は高次元の時空間出力空間のモデリングが必要であり、依然としてテキスト キューに基づいているため、より困難です。さらに、市場にある既存のビデオ テキスト データセットは、通常、画像テキスト データセットよりも一桁小さい
  2. ビデオ生成の主流のモードは、拡散モデルを使用してすべてのビデオ フレームを一度に生成することです。まったく対照的に、NLP では、長いシーケンスの生成は自己回帰問題として定式化されます。つまり、前に予測された単語を条件として次の単語を予測します
    \rightarrow  。したがって、後続の予測のための条件付き信号 (条件付け信号) は徐々に変化します。もっと強くなる。研究者らは、ビデオ生成自体が時系列であるため、条件付き信号を強化することも高品質ビデオ生成には重要であると仮説を立てましたが、自己回帰デコードに拡散モデルを使用することは、単一フレームを生成するためにモデル自体が複数回の反復を必要とするため困難です。画像の
    \rightarrow

そこで、メタ研究者は EMU VIDEO を提案し、その論文は「EMU VIDEO: 明示的な画像調整によるテキストからビデオへの生成の因数分解」です。 》 プロジェクトのアドレスは https://emu-video.metademolab.com/ で、 明示的な中間画像生成ステップを通じて拡散ベースのテキストからビデオへの生成の条件を強化します。

具体的には、Vincent ビデオの問題を 2 つのサブ問題に分解します。

  1. 入力テキスト プロンプトに従ってp画像を生成します私
  2. 次に、より強力な条件を使用します: 生成された画像とテキストを使用してビデオを生成しますで
    直観的には、モデルに開始画像とテキストを与えると、ビデオの生成が容易になります。画像が将来どのように進化するかを予測します
    そして、画像を使用してモデルを制約するFために、画像を一時的にゼロパディングして、A バイナリと比較します。マスク (どのフレームにゼロが埋め込まれているかを示す) はノイズの多い入力と連結されます

    それでは、初期化にはどのような種類のテキストから画像へのモデルが使用されるのでしょうか?モデルにはテキストから画像への U-Net アーキテクチャを使用し、事前トレーニングされた T2l モデルを使用してすべての空間パラメーターを初期化します。このモデルは、フリーズされた T5-XL とフリーズされた CLIP テキスト エンコーダの両方を使用して、テキスト プロンプトから特徴を抽出します。 U-Net の個別のクロスアテンション レイヤーが各テキスト特徴を担当します。初期化後、モデルには 2.7B のフリーズされた空間パラメータと 1.7B の学習された時間パラメータが含まれます。
    モデルは、フリーズされた T5-XL [15] とフリーズされた CLIP [58] テキスト エンコーダの両方を使用して抽出しますテキスト プロンプトからの特徴。U-Net の個別のクロスアテンション レイヤーが各テキスト特徴に対応します。初期化後、モデルには、フリーズされたままの 2.7B の空間パラメーターと、学習される 1.7B の時間パラメーターが含まれます。 > > > として) で使用されていたモデルの深いカスケードを必要とせずに、512 ピクセルの高解像度ビデオの直接生成をサポートします。 以前の作業) - この方法以前の方法 () という重要な設計上の決定事項を特定しました。 そして、拡散のための調整されたノイズ スケジュール、および多段階トレーニング

    ビデオからテキストへのデータセットは画像からテキストへのデータセットよりもはるかに小さいため、研究者らはまた、重み固定された事前トレーニング済みテキストから画像へのデータセットを使用してテキストからビデオへのモデルを初期化しました。 (T2I) モデル。

もっと詳しく教えてください

  1. 初期化時に画像を生成できるように、事前トレーニングされたテキストから画像へのモデルを使用して F を初期化します。
    事前トレーニングされた T2I モデルから初期化され、フリーズされたままであるため、このモデルはしたがって、大規模な画像テキスト データセットから学習した概念的および文体の多様性を保持し、それを使用して i を生成します。このスタイルを維持するために画像データとビデオ データが共同で微調整されるImagen ビデオとは異なり、追加のトレーニング コストは必要ありません。< a i=4 >空間レイヤーは事前トレーニングされた T2I モデルから初期化され、凍結されたままであるため、私たちのモデルは大規模な画像テキスト データセットから学習した概念的および文体の多様性を保持し、それを使用して I を生成します。これには、アプローチとは異なり、追加のトレーニング コストはかかりません [Imagen] もちろん、多くの直接的な T2V 手法 [潜在力の調整: 潜在拡散モデルを使用した高解像度ビデオ合成、別の例など]これも事前トレーニングされた T2I モデルから初期化され、空間レイヤーをフリーズしたままにします。ただし、画像ベースの因数分解を採用していないため、T2I モデルの品質と多様性を維持できません


    多くの直接 T2V アプローチ [7、68] も、事前トレーニングされた T2I モデルから初期化され、空間レイヤーを凍結したままにします。ただし、画像ベースの因数分解は採用されていないため、T2I モデルの品質と多様性は保持されていません。

    次に、テキスト ヒントと開始フレームに基づいてビデオを推測するという 2 番目のステップを解決するために F をトレーニングするだけで済みます。
    これは、開始フレーム I を指定し、テキスト キュー pxw と画像 I コンディショニングの両方を使用して T フレームを予測することをモデルに要求します。これにより、ビデオとテキストのペアを使用して F をトレーニングします。
  2. 潜在拡散モデルが使用されるため、ビデオ V は最初に、フレームごとに適用される画像オートエンコーダーを使用して潜在空間 X∈R T ×C×H×W に変換され、空間次元が削減されます。
    潜在空間は、オートエンコーダのデコードを使用してピクセル空間に変換できます。) ビデオの T フレームは独立してノイズ除去され、ノイズ除去された入力 Xt を生成し、拡散モデルはノイズを除去するようにトレーニングされます (ビデオの T フレームには独立してノイズが含まれており、ノイズ除去された入力 Xt が生成され、拡散モデルはノイズを除去するようにトレーニングされます。< a i=6>)
  3. 事前トレーニングされた T2I モデルを使用して、潜在拡散モデル F を初期化します。
    上記の「 1.1.2.2 時空間潜在拡散」のように) " では、新しい学習可能な時間パラメータを追加します。
    \rightarrow  各空間畳み込みの後に 1 次元の時間畳み込みを追加します。 積
    \rightarrow  追加各空間アテンション レイヤーの後に 1 次元の時間アテンション レイヤー
    元の空間畳み込みレイヤーとアテンション レイヤーが T フレーム上のそれぞれに独立して適用され、凍結されたままになります。

    事前トレーニングされた T2I モデルはすでにテキスト条件です。上記の画像条件と組み合わせると、F はテキスト条件と画像条件の両方になります
    事前トレーニングされた T2I モデルはすでにテキスト条件付けされており、画像と結合されています条件付けは上記で説明されていますが、テキストと画像の両方で条件付けされます

そうすることで得られる最終的なメリットは、

  • テキストから直接ビデオを生成する方法とは異なり、その分解方法は推論中に画像を明示的に生成するため、次のように、ヴィンセント グラフ モデルの視覚的な多様性、スタイル、品質を簡単に維持できます。
    これにより、学習データ、計算量、学習可能なパラメータが同じ場合でも、EMU VIDEO は直接 T2V 方式を超えることができます。

    写真

  • たとえば、多段階のトレーニング方法を通じて、Vincent ビデオ生成の品質を大幅に向上させることができます。

    写真

2.2.2 生成されたビデオの再生時間を延長する方法

示されているデモからわかるように、EMU VIDEO はすでに 4 秒のビデオ生成をサポートしています。論文では、ビデオの長さを増やす方法も検討しています。

著者らは、アーキテクチャを少し変更するだけで、モデルを T フレームに制約し、ビデオに合わせてスケールできることを示しています。したがって、彼らは、「過去」の 16 フレームを条件として、将来の 16 フレームを生成するように EMU VIDEO の亜種をトレーニングしました。ビデオを拡張するときに、元のビデオとは異なる将来のテキスト プロンプトを使用しました。その効果を図 7 に示します。彼らは、拡張されたビデオが元のビデオと将来のテキスト プロンプトの両方に従っていることを発見しました。

パート 3 PixelDance: 生成されたビデオは非常にダイナミックです

11 月 18 日、Byte は PixelDance を途中で開始しました

  • ビデオコンテンツが実際に動くように、高い一貫性と豊かなダイナミクスを備えたビデオを生成することは、ビデオ生成の分野における現在の最大の課題です。
  • この点で、 PixelDance の最新の研究結果は重要な一歩を踏み出しており、生成された結果のダイナミクスは他の研究結果よりも大幅に優れています。既存のモデルが業界の注目を集めている

3.1 PixelDance の 2 つのビデオ生成モード

公式 Web サイト (https://makepixelsdance.github.io) では、PixelDance は 2 つの異なるビデオ生成モードを提供します

3.1.1 基本モード: ガイダンス画像 + テキスト説明を通じてビデオを生成

1 つ目は基本モードです。ユーザーはガイダンス画像とテキストの説明を入力するだけで、PixelDance は一貫性の高いダイナミックなビデオを生成できます。ガイダンス画像は実際のものにすることができます。既存のヴィンセント図を使用して画像を生成することもできます。モデル。
表示結果から判断すると、PixelDance はリアルスタイル、アニメーションスタイル、2D スタイル、魔法スタイルのすべてを解決できます。キャラクターの動き、表情、カメラの視点制御、特殊効果の動き、PixelDance非常にうまく完成させることもできます

写真

3.1.2 アドバンスト マジック モード: 2 つのガイド画像とテキストの説明を通じてクールなショットを生成します。

2 つ目は高度なマジック モードで、ユーザーに想像力と創造性を発揮する余地を与えます。このモードでは、ユーザーは 2 つのガイド画像とテキストの説明を提供する必要があります。これにより、より困難でクールな特殊効果ショットをより適切に生成できます。

写真

また、公式サイトではPixelDanceのみを使用して制作された3分間のショートストーリーフィルムも公開されています。

  1. PixelDanceを使用することで、ユーザーが思い描くストーリーに沿って各シーンとそれに対応するアクションを作成することができます。現実のシーン (エジプト、万里の長城など) であっても、架空のシーン (異星惑星など) であっても、PixelDance は、豊富なディテールとアクション、さらにはさまざまな特殊効果ショットを備えたビデオを生成できます。
  2. また、主人公のシロクマさんの黒いシルクハットと赤い蝶ネクタイのイメージは、さまざまなシーンでしっかりと保たれています。長いビデオの生成は、関連性の低い短いビデオ クリップをつなぎ合わせることではなくなりました。

このような優れたビデオ生成効果を実現するには、複雑なデータセットや大規模なモデルのトレーニングに依存せず、PixelDance は公開されている WebVid-10M データセット上の 1.5B モデルのみで上記の効果を実現しました。

さらに、ユーザーは簡単なスケッチをビデオの最後のフレームとして使用して、ビデオ生成プロセスをガイドすることもできます(例として画像スケッチを使用し、PixelDance を微調整します)イメージ スケッチ [49 ] を最後のフレーム命令として使用します)

3.2 PixelDance の原理分析と論文の解釈

3.2.1 PixelDance: 潜在的な拡散モデルに基づく + <テキスト コマンド、最初のフレーム コマンド、最後のフレーム コマンド> を条件として

Byte チームは、この論文「Make Pixels Dance: High-Dynamic Video Generation」(論文アドレス: https://arxiv.org/abs/2311.10982 、デモ) で PixelDance を提案しました。アドレス: https://makepixelsdance.github.io)、非常に読みやすいです。私が考える主な理由は、結局のところ中国人によって書かれたものであり、何度も読む価値があるということです< /span> a>

論文では、ビデオ生成が良好な結果を達成することが難しい理由として、ビデオ生成は画像生成と比較して、特徴空間が非常に大きく、アクションの多様性が非常に大きいという特徴があると指摘しました。このため、既存のビデオ生成手法では効果的な時間領域のアクション情報を学習することが困難であり、生成されたビデオは高画質ではあるものの、そのダイナミクスは非常に限られています。

PixelDance は、潜在拡散モデルに基づくビデオ生成メソッドであり、<テキスト、最初のフレーム、最後のフレーム> 命令に条件付けされます (条件付き <テキスト、最初のフレーム、最後のフレーム> 手順)

  • テキスト命令は事前にトレーニングされたテキスト エンコーダーによってエンコードされ、クロスアテンションとともに拡散モデルに統合されます。
  • 画像命令は、事前トレーニングされた VAE エンコーダを使用してエンコードされ、混乱したビデオ潜在またはガウス ノイズと拡散モデルへの入力として連結されます。 /span>
    画像命令は事前トレーニングされた VAE エンコーダーでエンコードされ、拡散モデルへの入力として摂動ビデオ潜在またはガウス ノイズと連結されます。
  • firstframe 命令については、トレーニングにグラウンド トゥルースの最初のフレームを採用し、推論においてモデルが最初のフレーム命令に厳密に準拠するようにします)。これにより、連続するフレーム間の連続性が維持されます。ビデオクリップ。推論では、この指示は T2I モデル [32] から簡単に取得するか、ユーザーによって直接提供することができます。

しかし、最後のフレームを取得するにはどうすればよいでしょうか?最後のフレームは最初のフレームとは異なるため、このために 3 つの技術を開発しました。

  1. 最初に、トレーニング中にビデオ クリップの最後の 3 つの (グラウンド トゥルース) フレームから最後のフレーム命令がランダムに選択されます。
    ビデオの最後の 3 つの (グラウンド トゥルース) フレームクリップ
  2. 2 番目に、命令への依存を軽減し、モデルの堅牢性を向上させるために、命令にノイズを導入します。
    2 番目に、命令への依存を軽減するために、命令にノイズを導入します。命令を実行し、 モデルの堅牢性を促進します

    。これは、画像命令のエンコードされた潜在 cimage をノイズで混乱させることと同じです。 >)
  3. 第三に、トレーニング中に特定の確率 (たとえば 25%) で最後のフレーム命令をランダムに破棄します。したがって、彼らは、シンプルかつ効果的な推論サンプリング戦略を提案しました。
    トレーニングでは、特定の確率 (例: 25%) で最後のフレーム命令をランダムに削除します。

    最初の τ ノイズ除去ステップでは、最後のフレーム命令を使用して、ビデオ生成を目的の最終状態に向けてガイドします。最初の τ ノイズ除去ステップでは、最後のフレーム命令を使用してビデオ生成をガイドします。 その後、残りのステップで命令が破棄され、モデルがより時間的に一貫したビデオ (最大 3 分間) を生成できるようになります。最後のフレーム命令の影響は によって調整できます。その後、残りのステップで命令が削除され、モデルがより多くのフレームを生成できるようになります。 - 偏向的にコヒーレントなビデオ。最後のフレーム命令の影響は τ によって調整できます。\ できる


    \ できる

この論文では、長いビデオの生成が容易ではない理由として、長いビデオには連続するビデオ クリップ間のシームレスな移行と、シーンとキャラクターの長期的な一貫性が必要であることが挙げられています。


一般に次の 2 つの方法があります。

  1. 自己回帰メソッド [15、22、41] は、スライディング ウィンドウを使用して、前のセグメントに条件付けされた新しいセグメントを生成します。
    1) 自己回帰メソッド [15、22、41] は、スライディング ウィンドウを使用します。前のクリップに基づいて新しいクリップを生成します

    ただし、自己回帰手法は時間の経過とともにエラーが蓄積されるため、品質が低下する可能性があります。
  2. 階層メソッド [9、15、17、53] は最初にスパース フレームを生成し、次に中間フレームを補間します
    階層メソッド [9、15、17、53] は最初にスパース フレームを生成します。その後、中間フレームを補間します。

    階層方式に関しては、トレーニング用に長いビデオが必要ですが、オンライン ビデオではレンズが頻繁に変更されるため、ビデオを取得するのが困難です。
    さらに, この課題は、より大きな時間間隔にわたって時間的に一貫したフレームを生成することでさらに悪化します。これにより、多くの場合、初期フレームの品質が低下し、後の補間で良好な結果を達成することが困難になります。

最後に、長いビデオを生成するために、PixelDance は最初のフレームの命令に厳密に従うようにトレーニングされます。ここで前のビデオ クリップの最後のフレーム (前のクリップの最後のフレーム)、 は後続のクリップを生成するための最初のフレーム命令として使用されます(は使用されます)後続のクリップを生成するための最初のフレーム命令として)

3.2.2 PixelDance アーキテクチャ: 時間およびテキスト命令の 2D UNet 挿入 + 画像命令挿入に基づく

広く使用されている 2D UNet を拡散モデルとして採用します。これは、スキップ接続を挿入する一連の空間ダウンサンプリング レイヤーと一連の空間アップサンプリング レイヤーで構成されます (広く使用されている 2D UNetas 拡散モデル。スキップ接続が挿入された一連の空間ダウンサンプリング レイヤーと、その後に続く一連の空間アップサンプリング レイヤーで構築されます。)

  1. 具体的には、2D 畳み込みブロックと 2D アテンション ブロックという 2 つの基本ブロックから構築されます。時間層を挿入することで 2D UNet を 3D バリアントに拡張します。ここでは、2D 畳み込み層の後に時間次元に沿って 1D 畳み込み層が続き、2D アテンション層の後に時間次元に沿って 1D アテンション層が続きます (1D アテンション層 2D アテンション レイヤーに続く時間次元に沿って。、および1D 畳み込み層具体的には、2D 畳み込みブロックと 2D アテンション ブロックの 2 つの基本ブロックで構築されます。時間レイヤーを挿入して 2D UNet を 3D バリアントに拡張します。 [ 22]、2D 畳み込み層の後の時間次元に沿った)」の説明に続きます。 1.1.2.2 時空間潜在拡散この点は編集ビデオと同じであり、上記の「
  2. モデルを画像やビデオと組み合わせてトレーニングすることで、空間次元での高忠実度の生成機能を維持できます。画像入力の場合、1D 時間操作は無効になります。
    すべての時間アテンション レイヤーで双方向セルフ アテンションを使用し、テキスト命令には事前トレーニングされた CLIP テキスト エンコーダーを使用します。エンコードには、埋め込み c テキストが挿入されます。 UNet のクロス アテンション レイヤーを介して、非表示状態をクエリとして、c テキストをキーと値として使用します)
    モデルは画像やビデオと共同でトレーニングして、空間次元での高忠実度の生成能力を維持できます。1D 時間操作は画像入力に対して無効になっています。
    すべての時間操作で双方向セルフアテンションを使用します。アテンション レイヤー。事前トレーニング済みの CLIP テキスト エンコーダー [30] を使用してテキスト命令をエンコードし、埋め込みc テキストはクロスアテンション レイヤーを通じて挿入されます。 UNet では、隠し状態をクエリとして、c テキストをキーと値として使用します。
  3. イメージ命令インジェクション(イメージ命令インジェクション)
    最初と最後のフレーム画像ディレクティブをテキスト ディレクティブと組み合わせます。トレーニングでは、グラウンドトゥルースのビデオ フレームを指示として利用します。
    \left\{\mathbf{I}^{\text {最初 }}、\mathbf{I}^{\text {最後の }}\right\} で示される最初と最後のフレームの画像命令を指定すると、まず VAE を使用してそれらを拡散モデルの入力空間にエンコードし、< を取得します。 /span>最初と最後のフレームの両方にテキスト命令と組み合わせて画像命令を組み込んでいます。トレーニングでは、グラウンドトゥルースのビデオ フレームを命令として利用します。< /span>はチャネル次元に沿って接続され、拡散モデルへの入力として機能します として構築されます。潜在ノイズ where ):命令を注入するには時間的位置情報を失うことなく、最終的な画像条件は 時間的位置情報を失わずに命令を注入するために、最終的な画像条件は次のように構築されます ( {If irst, Ilast} として示される最初と最後のフレームの画像命令を指定すると、まず VAE を使用してそれらを拡散モデルの入力空間にエンコードし、結果は {ff irst,flast } になります。ここで f ∈ RC×H×W\left\{\mathbf{f}^{\text {最初 }}、\mathbf{f}^{\text {最後の }}\right\}、ここで\mathbf{f} \in \mathbb{R}^{C \times H \times W}




    \mathbf{c}^{\text {画像 }}=\left[\mathbf{f}^{\text {最初 }}, \mathrm{PADs}, \mathbf{f}^{\text {最後 }} \right] \in \mathbb{R}^{F \times C \times H \times W}

    \operatorname{PADs} \in \mathbb{R}^{(F-2) \times C \times H \times W}z_t

3.2.3 データ処理とトレーニングの詳細

最後に、彼らは WebVid-10M でビデオ拡散モデルをトレーニングしました。これには、平均長さ 18 秒、解像度 336 × 596 の約 1,000 万の短いビデオ クリップが含まれています。残念ながら、WebVid-10M には 2 つの問題があります。

  1. 各ビデオはペアになったテキストに関連付けられていますが、テキストはビデオ コンテンツとの関連性が低い大まかな説明のみを提供します。
  2. WebVid-10M に関するもう 1 つの厄介な問題は、すべてのビデオにウォーターマークがあり、生成されたすべてのビデオにウォーターマークが存在することになります。

したがって、人間、動物、物体、風景などの現実世界のエンティティを描写する他の自己収集の 500K の透かしのないビデオ クリップと、ペアリングを説明する粗粒度のテキストを使用して、トレーニング データを拡張します。ほんのわずかな割合しか含まれていませんが、このデータセットを WebVid-10M と組み合わせてトレーニングすると、画像命令に透かしが含まれていない場合でも、PixelDance が透かしのないビデオを生成できることが保証されます (驚くべきことに、トレーニング用に WebVid-10M を使用したこのデータセットにより、画像の指示に透かしがない場合)、PixelDance が透かしのないビデオを生成できることが保証されます。

PixelDance は「ビデオ テキスト データセット」と「画像 テキスト データセット」で共同トレーニングされます (PixelDance は ビデオ テキストで共同トレーニングされます)データセット および画像テキスト データセット)、具体的には

  1. ビデオ データの場合、ビデオごとに 4 fps で 16 の連続フレームをランダムにサンプリングします。以前の作業 (Imagen ビデオ: 拡散モデルを使用した高解像度ビデオ生成) に続いて、LAION-400M が画像テキスト データ セットとして使用されます。画像テキスト データは 8 回のトレーニング反復ごとに利用されます)
  2. 事前トレーニングされたテキスト エンコーダーと VAE モデルの重みは、トレーニング中に固定されます。彼らは、トレーニングに T = 1000 タイム ステップの DDPM を採用しています。まず、32 個の A100 GPU、バッチ サイズ 192 で 256×256 の解像度で 200K 反復でモデルをトレーニングします。
  3. その後、モデルは高解像度でさらに 50,000 回反復できるように微調整され、ノイズ除去拡散確率モデルから ϵ-prediction[ を導き出しました。 ] トレーニング目標を組み込む

3.2.4 モデルの評価と効果表示

具体的には、既存の T2I モデルStable Diffusion V2.1を使用して最初のフレーム命令を取得し、指定されたビデオを生成します。テキストと最初のフレームの指示)

以前の研究 [7、44] に従って、各例で 1 つのプロンプトをランダムに選択して、評価用に合計 2990 のビデオを生成し、MSR-VTT データセット上の Fr 応答ビデオ距離 (FVD) [40] を計算します。類似性 (CLIPSIM)[47]

  1. FID と FVD は生成されたビデオと実際のデータ間の配信距離を測定します
  2. IS は生成されたビデオの品質を評価します
  3. CLIPSIMは、生成されたビデオと対応するテキストの類似性を推定します。

MSR-VTT および UCF-101ゼロショートの評価結果を以下の 2 つの表に示します

  1. MSR-VTT の他の T2V 方式と比較して、Pixel-Dance は FVD および CLIPSIM で最先端の結果を達成し、テキスト キューとよりよく一致する高品質ビデオを生成する優れた能力を実証しています。
  2. PixelDance の FVD スコアは 381 であり、以前の最先端の Mod-elScope [43] を大幅に上回っていることは注目に値します。さらに、その FVD は UCF-101 ベンチマークで 550 です。PixelDance はさまざまな点で他のモデルを上回っています。インジケーター IS、FID、FVD を含む

前述したように、ビデオ生成方法には、テキスト、最初のフレーム、および最後のフレームの命令という 3 つの異なる命令が含まれています。

  1. 最初のフレーム ディレクティブは、視覚的な詳細をより細かく提供することにより、ビデオ品質を大幅に向上させます。さらに、複数の連続したビデオクリップを生成することが重要です。以下の画像に示すように、テキストと最初のフレームの命令により、PixelDance は既存のモデルよりもアクション豊富なビデオを生成できます。

  2. ビデオ クリップの概要ステータスを示す最後のフレーム ディレクティブは、ビデオ生成に対する追加の制御を提供します。さらに、最後のフレーム命令 (以下の最後のサンプル) を使用して、自然なショット トランジションを生成できます。 >)

// 更新予定

パート 4 安定したビデオの拡散 (SVD)

4.1 Stability AI が生成ビデオ モデル Stable Video Diffusion (SVD) をリリース

11 月 21 日、安定拡散の後続バージョンを開発および保守する Stability AI は、テキストからビデオへの生成および画像からビデオへの生成をサポートする独自のビデオ生成モデル Stable Video Diffusion (SVD) をついにリリースしました。 、また、単一の視点から複数の視点へのオブジェクトの変換、つまり3D 合成もサポートしています。

4.2 SVD トレーニングの 3 つのステップ: 画像事前トレーニング、ビデオ事前トレーニング、およびビデオ微調整

SVD に対応する論文は次のとおりです。「安定したビデオの拡散: 潜在的なビデオの拡散モデルを大規模なデータセットに拡張する

この論文では、SVD をトレーニングするための 3 つのステップを特定しています。

  1. テキストから画像へ画像の事前トレーニング(画像の事前トレーニング)。つまり、SDXL 作業などの 2D テキストから画像への拡散モデルです。高解像度画像合成のための潜在拡散モデルの改善
  2. 比較的大規模だが低解像度のビデオ データセットでのビデオ事前トレーニング(ビデオの事前トレーニング低解像度の大規模なデータセット) ビデオの事前トレーニング フェーズの基礎となる、長いビデオの初期データセットを収集しました。 。次に、合成ビデオにカットやフェードが漏れないようにするために、カット検出パイプライン 1 を 3 つの異なる FPS レベルでカスケード方式で適用します。図 2 左は、カット検出の必要性の証拠を示しています。かなり多くのクリップ (約 4 倍) が保持されており、未処理のデータセット内の多くのビデオ クリップにメタデータから取得されたカットを超えるカットが含まれていることを示しています。

    次に、3 つの異なる合成字幕メソッドを使用して各クリップに注釈を付けます。まず、画像キャプショナ CoCa を使用して各クリップの中間フレームに注釈を付け、次に V-BLIP を使用してビデオベースの字幕を取得します。最後に、最初の 2 つの字幕を llm ベースで要約して、クリップの 3 番目の説明を生成します。
    次に、3 つの異なる合成キャプション方法で各クリップに注釈を付けます。 image captionerCoCa [103] を使用して各クリップの中間フレームに注釈を付け、V-BLIP [104] を使用してビデオベースのキャプションを取得し、最後に、最初の 2 つのキャプションの LLM ベースの要約を介してクリップの 3 番目の説明を生成します。

    ラージ ビデオ データセット (LVD) と呼ばれる、結果として得られる初期データセットは、5 億 8,000 万個の注釈付きビデオ クリップ ペアで構成され、212 年分のコンテンツを形成します。
  3. 小さいながらも高品質の高解像度ビデオ データセットでのビデオ微調整(高- はるかに小さいデータセットで高品質のビデオを使用して解像度ビデオを微調整する) 具体的には、潜在画像拡散モデル [12, 60] トレーニングを利用しました。テクニックを強化し、トレーニング サンプルの解像度を高めます。さらに、250K の高視覚忠実度の字幕付きビデオ クリップで構成される小規模な微調整されたデータセットを使用します。ここでは、潜像拡散モデリング [12, 60] のトレーニング技術を活用し、トレーニング サンプルの解像度。さらに、ビジュアル忠実度の高い 250,000 個のキャプション付きビデオ クリップで構成される小規模な微調整データセットを使用します

つまり、SVD は Stable Diffusion 2.1 に基づいています。まず、約 6 億サンプルのビデオ データセットを使用して基本モデルを事前トレーニングしました (提案したキュレーション スキームを約 6 億のサンプルで構成される大規模なビデオ データセットと、強力な事前トレーニング済みのテキストからビデオへのベース モデルをトレーニングします)

次に、高解像度のダウンストリーム タスク向けに、より小規模で高品質なデータセットでベース モデルを微調整します (高解像度のダウンストリーム タスク向けに、より小規模で高品質なデータセットでベース モデルを微調整します) -resolution ダウンストリーム タスク )

  • ビデオへのテキストのような (下の、一番上の行)
  • 単一の条件付き画像から一連のフレームを予測する画像からビデオ (下の画像、中段を参照)

第5部 Pika Labs:映画特撮レベルの映像生成モデル Pika 1.0 の発売

5.1 スタンフォード大学の美しい博士号を持つ 2 人の起業家プロジェクト: Pika 1.0

スタンフォード大学の博士課程の学生であるデミ・グオ氏は、昨年ランウェイの第 1 回 AI 映画祭に参加しましたが、ランウェイと Adob​​e Photoshop のツールが使いにくく、彼のチームの作品が賞を受賞できなかったことに気づき、それがその後の出来事につながりました。この一連のこと

  1. 今年 4 月、Guo Wenjing は、より使いやすい AI ビデオ ツールを開発するためにスタンフォード大学を中退することを決意し、Pika (公式 Web サイトのアドレス: https://pika.art) が誕生し、共同創設者の Chenlin が誕生しました。 Meng 氏もすぐに加わりました。
    2 人のうち、1 人は AlphaFold2 の研究に参加しており、もう 1 人は DDIM 論文の 2 番目の著者です

  2. Pika の設立後、現在では 50 万人のユーザーがおり、毎週何百万本もの動画を作成しています
    この爆発的な成長はシリコン バレーの投資家の注目を集めています。関心により、Pika は3 回の資金調達ラウンドで 5,500 万米ドルを調達 (最初の 2 回の資金調達ラウンドは元 GitHub CEO のナット フリードマン氏が主導し、シリーズ A での最新ラウンドの 3,500 万米ドルの資金調達は主導されました。 Lightspeed Venture Partners による)
    、そして心強いのは、わずか 4 人のチームの評価額が 2 億米ドルを超えたことです
  3. 今年 11 月 29 日に、Pika 1.0 が正式にリリースされ、3D アニメーション、アニメーション、漫画、映画などの制作に無制限のスペースが開かれました。

Pika 1.0 は、テキストと写真に基づいてビデオをスムーズに生成できるだけでなく、動きと静止を瞬時に切り替えることもできます。

写真

さらに、編集機能も非常に優れており、ビデオ内の任意の要素を指定して、一文で素早く「変更」することができます。

写真

また、Pika 1.0 で生成されたビデオは比較的美しく、たとえば次の宮崎駿の絵画スタイルのビデオは、私自身 2、3 回見ました、^_^

要約すると、Pika 1.0 の新機能は次のとおりです。

  1. テキスト生成ビデオ/画像生成ビデオ: 数行のテキストを入力するか、画像をアップロードして、AI によって短い高品質のビデオを作成します。
  2. ビデオ間の異なるスタイル変換: ビデオの構造を維持しながら、既存のビデオを異なる文字やオブジェクトを含む異なるスタイルに変換します。
  3. 展開: 動画のキャンバスまたはアスペクト比を拡大し、動画を TikTok 9:16 形式からワイドスクリーン 16:9 形式に変更します。AI モデルはそれ以降を予測します。オリジナル ビデオ境界のコンテンツは、最初に予測し、次に必要なコンテンツを完成または埋めることと同じです
  4. 変更: AI を使用して、服装の変更、別のキャラクターの追加、環境の変更、小道具の追加などのビデオ コンテンツを編集します。
  5. 延長: AI を使用して既存のビデオ クリップの長さを延長します。
  6. 新しい Web インターフェイス: Pika は Discord と Web で利用可能になります

5.2 Pika 1.0 の技術詳細: DreamPropeller は分別蒸留を通じてテキストから 3D への生成プロセスを加速します

以前は、DreamFusion、ProlificDreamer、その他のモデルなどの分別蒸留を使用して、テキストから 3D への生成の品質は高かったものの、実行時間が 10 時間にも及ぶ可能性がありました。

最新の論文では、スタンフォード大学と pika の研究者がこの論文「DreamPropeller: 並列サンプリングによるテキストから 3D の生成をスーパーチャージする」を承認しました。は、既存の方法の速度を 4.7 倍向上させることができる分別蒸留に基づく加速方法 - DreamPropeller を共同提案しました

DreamPropeller の全体的なアーキテクチャを次の図に示します。

  1. 各反復 (k 回) の開始時に、3D 形状 (緑色で示される) で構成されるウィンドウが初期化され、これらの形状は並列計算のために p 個の GPU に分散され、並列計算されます。 GPU: 形状の SDS/VSD 勾配
    左上から開始して、反復 k で、次元 D の 3D 形状のウィンドウ (緑色) を初期化し、それらを p 個の GPU にディスパッチして、 SDS/VSD 勾配、
  2. 次に、これらの勾配は次の式のルールに従って収集されます。式 (9) のルールを使用してロールアウト用に収集されます。" を選択し、これらのグラデーションを使用して形状を更新します
    \theta_{\tau}^{k}=h^{\dagger}\left(s\left(\theta_{\tau-1}^{k-1}\right), h^{\dagger}\left (s\left(\theta_{\tau-2}^{k-1}\right), \ldots h^{\dagger}\left(s\left(\theta_{0}^{k-1}\ right)、\theta_{0}^{k-1}\right)\right)\right)
  3. 反復 k + 1 で得られた形状 (オレンジ) と反復 k で得られた形状を比較します。このタイム ステップでの誤差がしきい値 e 以上になるまで、ウィンドウは前方にスライドします。しきい値 e は次の値に基づきます。ウィンドウの平均/中央値。誤差は適応的に更新されます。
    反復 k + 1 で得られた形状 (オレンジ色) が反復 k のものと比較されます。
    そのタイム ステップでの誤差がしきい値 e 以上になるまで、ウィンドウは前方にスライドされます。しきい値 e は、ウィンドウの平均/中央誤差で適応的に更新されます。

    さらに、

以下は他のモデルとの視覚的な比較ですが、DreamPropeller を使用した方法は、より短い実行時間で同じ高品質の生成を達成できることがわかります。

DreamFusion ギャラリーからの 30 個のヒントの定量的評価。実行時間は秒単位です。最新の研究手法により競争力のある品質を実現し、スピードを4倍以上向上

// 更新予定


パート 6 W.A.L.T: 拡散モデルにトランスフォーマーを使用する

23 年 12 月中旬、スタンフォード大学、Google、ジョージア工科大学の研究者は、W.A.L.T< と呼ばれるウィンドウ アテンション 潜在トランスフォーマー、またはウィンドウ アテンション潜在トランスフォーマーを提案しました。 /span> a>

この手法は、Transformer アーキテクチャを潜在ビデオ拡散モデルに統合することに成功しており、スタンフォード大学の Feifei Li 教授もこの論文の著者の 1 人です。

// 更新予定


参考文献

  1. ビデオ生成における新たなブレークスルー: PixelDance、複雑な動きとクールな特殊効果を簡単に表現
  2. 監督が一言で大ヒッ​​ト作を作るのはこの世の終わりなのでしょうか?ランウェイがテキスト生成ビデオモデル Gen-2、SF 日本の二次元をリリース
  3. 2023 年 11 月の滑走路 Gen2 アップデート
    Gen-2 は AI 生成の動画を覆します。たった 1 つの文が数秒で 4K 高解像度の大ヒット作を生み出す、ネチズン: ゲームのルールを完全に変える
    テキスト生成ビデオ ツールがメジャー アップデートされました。Runway Gen-2 はどのくらい強力ですか?
  4. ChatGPT のメタ バージョンはこちらです: Llama 2 の祝福、Bing 検索へのアクセス、Xiao Zha のライブ デモンストレーション、ヴィンセント グラフ モデルの紹介エミュー
  5. メタ生成 AI の連続増幅の動き: ビデオ生成は Gen-2 を超え、アニメーション顔文字は好みに合わせてカスタマイズ可能
  6. スタンフォードの美しい博士号を取得した起業家プロジェクトは大ヒットです。 AI ビデオ生成はデビュー以来ヒットし、半年で 5,500 万米ドルを調達
    スタンフォード中国博士課程の学生のビデオ Pika 1.0 がヒット!従業員 4 人の会社の評価額は 2 億で、OpenAI Lianchuang が投資に参加しています。
  7. Pika 1.0 の最初のテスト: ネチズンは映画レベルの爆発効果を初めて体験し、その背後にある技術的な詳細が初めて公開されました
  8. ..

レコードの作成、変更、改善

  1. 11.28、Runway の Gen1 論文を一字一句読み、この記事の最初の部分を改善します
    新しい研究の方向性を追加することを検討してください: Wensheng Video
    私たち(私たち)は、Wensheng のビデオを中心とした一連の通訳ブログ、オープンクラス、コース、商用プロジェクト/ソリューションなどを順次リリースしていきます。
  2. 11.29 から、Meta がリリースした Emu Edit 論文と EMU VIDEO 論文を読み始め、この記事の 3 番目の部分を改良しました。
  3. 11.30、安定したビデオ拡散ペーパーに基づいて、この記事の 4 番目の部分を改善
    し、Pika 1.0 に関連する 5 番目の部分を更新します
  4. 12.1、PixelDance のこの論文「Make Pixels Dance: High-Dynamic Video Generation」を読んで、3 番目の部分の改善を開始しました。
    つまり、この論文は非常に読みやすいですとても良い
  5. 12.2 では、Meta の Emu Edit 論文を再度見直すことにより、データ セットの説明を補足する新しいセクション「2.1.2 16 の異なるタスクをカバーする 1,000 万規模のデータ セットの開発」が追加されました。
  6. 12.3、全文の微調整の詳細を整理し、最終的にこの記事の初稿を形成します
    この記事は今後半月にわたって継続的に改訂および改善されますおよび、モデルまたはテクノロジーのいずれかがより重要である場合、新しい開発もこの記事に追加されます
  7. 12.9、新しいセクション: 「5.2 Pika 1.0 技術詳細: DreamPropeller は分別蒸留を通じてテキストから 3D への生成プロセスを加速します」
  8. 12.15、「パート 6 W.A.L.T: 拡散モデルにトランスを使用する」を追加しましたが、具体的な内容は改善する必要があります。

おすすめ

転載: blog.csdn.net/v_JULY_v/article/details/134655535