Google、大規模言語モデル VideoPoet を発表: テキストと画像でビデオとオーディオを生成可能

Google Research は最近、ビデオ生成分野における現在の課題を解決することを目的とした VideoPoet と呼ばれる大規模言語モデル (LLM) をリリースしました。近年、この分野では多くのビデオ生成モデルが登場していますが、一貫した大きな動きを生成するには依然としてボトルネックが存在します。既存の主要なモデルは、より小さなモーションを生成するか、より大きなモーションを生成するときに顕著なアーティファクトに悩まされます。

VideoPoet のイノベーションは、言語モデルをビデオ生成に適用し、テキストからビデオ、画像からビデオ、ビデオのスタイル化、修復と復元、ビデオからオーディオへの変換など、さまざまなタスクをサポートすることにあります。現在の主流の普及モデルとは異なり、VideoPoet は、タスクごとに個別にトレーニングされたコンポーネントに依存するのではなく、これらのビデオ生成機能を大規模な言語モデルに融合します。

写真

このモデルは、ビデオ、画像、オーディオ、テキスト モダリティ全体の知識を学習するために、複数のトークナイザー (ビデオと画像の場合は MAGVIT V2、オーディオの場合は SoundStream) でトレーニングされています。モデルで生成されたトークンを視覚的表現に変換することにより、VideoPoet はアニメーション、様式化されたビデオを出力し、さらにはオーディオを生成することができます。このモデルは、テキストからビデオへの変換、画像からビデオへの変換、その他のタスクの生成をガイドするテキスト入力をサポートしています。

VideoPoet の多用途性を実証するために、研究者らはいくつかの生成例を提供しています。

写真

テキスト生成ビデオ

このモデルは、テキスト プロンプトに基づいて可変長ビデオを生成でき、入力画像をアニメーション ビデオに変換することもできます。さらに、このモデルにはビデオを様式化する機能もあり、オプティカル フローと深度情報、およびいくつかの追加のテキスト プロンプトを入力することで、独自のスタイルのビデオを生成します。最も印象的なのは、VideoPoet がオーディオを生成することもでき、単一モデルからビデオとオーディオを生成するという目標を達成できることです。

写真

画像生成ビデオ

写真

ビデオのスタイル化

写真

音声を生成できる

研究者らは、VideoPoet のトレーニング方法により、より長いビデオを生成する可能性があり、前のビデオの最後の 1 秒に基づいて次の 1 秒を予測することで継続的に延長できると指摘しました。さらに、このモデルは生成されたビデオのインタラクティブな編集もサポートしており、ユーザーはオブジェクトの動きを変更してさまざまなアクションを実行できるため、高度な編集制御が可能です。

評価結果

研究者らは、さまざまなベンチマークを使用してテキストからビデオへの生成における VideoPoet のパフォーマンスを評価し、結果を他の方法と比較しました。中立的な評価を保証するために、サンプルを厳選することなく、さまざまなプロンプトの下ですべてのモデルを実行し、人々に好みを評価してもらいました。以下のグラフは、次の質問に対して VideoPoet が優先オプションとして選択された時間の割合を緑色で強調表示しています。

写真

テキストの忠実性

上記に基づいて、平均して、人々は VideoPoet のサンプルの 24 ~ 35% を競合モデルよりもキューに従うのが優れているとして選択します (競合モデルの 8 ~ 11%)。また、評価者は、他のモデルの 11 ~ 21% と比較して、VideoPoet のサンプルの動きがより興味深いため、41 ~ 54% を好みました。

大規模な言語モデルとして、VideoPoet は複数のビデオ生成タスクを統合することでゼロショット ビデオ生成の新たな可能性を提供し、芸術作品や映画、テレビ制作などの分野に潜在的なイノベーションの機会をもたらします。

公式ブログ: https://blog.research.google/2023/12/videopoet-large- language-model-for-zero.html

プロジェクト URL エクスペリエンス: https://top.aibase.com/tool/videopoet

写真

おすすめ

転載: blog.csdn.net/aizhushou/article/details/135122953