汎エンターテインメント業界におけるジェネレーティブ AI のアプリケーション シナリオ – 様式化されたビデオ コンテンツの作成を促進する

6d78244c93669055d0ee5ba690e36cf1.gif

「生成 AI 業界ソリューション ガイド」シリーズ ブログをお読みいただきありがとうございます。シリーズ全体は 4 つの記事に分かれています。生成 AI ソリューション ガイドと、電子商取引、ゲーム、および汎エンターテインメント業界における典型的なシナリオを体系的に紹介します。 . 応用練習。ディレクトリは次のとおりです。

背景紹介

2022 年以降、生成 AI は特にヴィンセント グラフの分野で急速に発展し、拡散モデルを主力とし、他のモデルのサポートを受けながら、新しいヴィンセント グラフとグラフ生成グラフ技術が絶え間なく登場しました。メディアやエンターテインメントの分野で広く使用されており、主なシナリオは、1. シーン台本のイラスト作成、2. コミック作成、3. コンセプト マップの作成です。そしてテクノロジーの進歩に伴い、比較的完全なツールチェーンが形成されています。

画像生成における拡散モデルとそのア​​プリケーションの優れた機能にもかかわらず、ビデオ生成の分野は遅れをとっています。主な理由は、高品質のトレーニング セットがないこと、ビデオを適切に記述する方法がないこと、生成ビデオ モデルのトレーニングに非常に高いコンピューティング能力が必要であることです。

現在、拡散モデルを使用してビデオを生成する主流の方法は次のとおりです。テンプレートビデオを使用し、それをビデオフレーム画像に分解し、さまざまなプラグインを使用してプロンプトワードと画像の特徴に従ってフレームごとにスタイル化し、最後にそれらをスタイル化された画像に結合します。ビデオ。

この記事では、生成 AI 業界ソリューション ガイドに基づいて、汎エンターテイメント業界における様式化されたビデオ生成を目指し、生成 AI の使用法とパラメーター構成を紹介し、従来のツールと連携してコンテンツ作成を支援し、一定のレベルを達成します。創造性の効果。

汎エンターテインメント業界におけるビデオ作成における生成 AI

汎エンターテインメント業界では、短いビデオが最も人気のあるコンテンツ表現形式であり、制作コストが低く、伝送速度が高いという特徴があります。ショートビデオの従来の生成方法には、UGC モードと PGC モードがあり、従来のメディアに比べて制作サイクルと制作コストが大幅に低くなりますが、依然として「企画、台本、セリフ、キャスティング、リハーサル、正式なパフォーマンスの記録」から切り離すことはできません。 「チェック、編集、ポストレビュー、公開」という基本的な手順を実行します。一般的に、5分程度の短い動画の平均制作時間は2~3日程度です。生成 AI の出現により、生産効率が大幅に向上し、生産サイクルが短縮され、さらには生産ステップが簡素化される可能性があります。 

現在、様式化された写真や様式化されたビデオを生成する方法があり、既存の写真やビデオ、または初期段階で撮影したビデオに従って、後のステップに直接入力できます。スタイル化とは、短いビデオを生成する試みであり、このようなビデオにはまだちらつきやジャンプなどの問題がありますが、コミュニティの継続的な進歩により、その効果はますます良くなりつつあります。もちろん、この種の動画自体は自由度が高くクリエイティブ性が高いため、話題性やコミュニケーション力も強いです。

様式化されたビデオを作成する主流の方法は、連続した様式化された画像を、連結された一連のビデオ フレームとして使用することです。含む:

1) 元のビデオから各フレームを抽出し、プロンプトの言葉によってフレームごとに画像を生成し、最後に画像を再組み立てして様式化されたビデオを生成します。

2) いくつかのクリエイティブな画像をキー フレームとして、同様の画像をトランジション フレームとして生成し、それらを組み立てて様式化されたビデオを作成します。

これら 2 種類の様式化されたビデオは、Stable Diffusion WebUI プラグインを通じて実現できます。ただし、これら 2 つの様式化されたビデオ制作方法には、それぞれ解決する必要がある特定の問題がまだあります。

1) テンプレートビデオの撮影には、オリジナルビデオのアレンジ、パフォーマンス、著作権の問題など、依然として一定の投資が必要です。

2) 様式化されたビデオの主題を定義するのは困難です。

このペーパーでは、定型化ビデオを結合して生成する 2 つの方法を紹介します。これにより、現在の定型化ビデオ プラグインを最大限に活用でき、定型化ビデオ制作における上記の問題を部分的に解決できます。

  1. 3Dモデルの動画像を設計図として用いて様式化された動画を生成する手法

  2. 通常の短い動画を出発点(または中間ノード)として、特定のテーマを持った様式化された動画を生成する手法

アーキテクチャと動作原理

この記事は生成 AI 業界ソリューション ガイドに基づいており、その動作原理は次のとおりです。

70faf008a89094d69d432c7b8e9d092b.jpeg

Generative AI 業界ソリューション ガイド、フロントエンドの Stable Diffusion WebUI はコンテナ サービス Amazon ECS にデプロイされ、バックエンドは処理にサーバーレス サービス Amazon Lambda を使用し、フロントエンドとバックエンドは Amazon API Gateway 呼び出しを通じて通信します。 。モデルのトレーニングとデプロイは、Amazon SageMaker を通じて実行されます。同時に、Amazon S3、Amazon EFS、Amazon DynamoDB をそれぞれモデルデータ、一時ファイル、使用状況データの保存に使用します。迅速な導入プロセスについては、このブログ シリーズの最初の記事を参照してください。この記事では繰り返しません。

様式化されたビデオを生成するためのモデルとしての 3D モデル

まず、次の図に示すように、元のビデオをスタイル化されたビデオに変換する基本原理を理解しましょう。

15ba437fd5539400dc35cccc63aeea9f.jpeg

参考手順は次のとおりです。

  1. 元のビデオは一連のビデオ フレームに分解されます。

  2. フレームごとに安定した拡散でスタイル設定し、ControlNet を使用してキャラクターのシルエットとポーズを制御します

  3. 生成された新しいシーケンス フレームをビデオに再組み立てします。

ビデオ生成の観点から見ると、元のビデオはビデオの概要やアクションを様式化するためにのみ使用され、実際の人物や実際のシーンによって撮影された元のビデオを使用するコストは依然として比較的高いため、いくつかの低コストのビデオを使用した方がよいでしょう。 - コストの 3D モデル (アウトラインのみでテクスチャなし)、カラー パレット、非常に少ない面数のモデルなど、ビデオ生成の青写真として使用されます。これは例です:サンバを踊るサイバーパンクの女の子を生成します。これは一般的なビデオの様式化とは異なります。この例では、ダンスの動きはより複雑で、著作権のないオリジナルのビデオがテンプレートとして使用されます。その後、次のような具体的なものを取得できます。手順:

1. 低コストのキャラクターモデルを Blender または Unity3D にインポートし、サンバダンスアニメーションを生成します。ここでは、mixamo.com Web サイトからキャラクターのダンスのモデル コンポーネントをダウンロードし、次のように元のビデオに変換することを選択します。

a84e2eaa02a219bbc978dc0be97b4b64.gif

基本的な WebUI 環境を構築し、モデルをインポートします。生成 AI ソリューション ガイドに従って展開した後、次の操作が可能になります。

32180f9dd44c6eb27e5edd0d32cebd2d.jpeg

2.ビデオをインポートし、プロンプトの単語を入力します

即効性のある言葉を使う

サイバーパンクのプラグスーツを着た美しい女の子の超リアルな絵画、ハイパーディテール、マスク付きアートステーションでトレンドのアニメ (傑作:1.4)、(最高品質:1.2)、(超高解像度:1.2)、(8k 解像度:1.0)

逆キューワード

テキスト、手紙、ロゴ、ブランド、閉じる、切り取られた、フレームから外れている、最悪の品質、低品質、JPEGアーチファクト、醜い、重複、病的、切断された、余分な指、変異した手、下手に描かれた手、下手に描かれた顔、突然変異、変形している、ぼやけている、脱水している、悪い解剖学、悪いプロポーション、余分な手足、クローンの顔、醜い、全体的なプロポーション、奇形の手足、欠けている腕、欠けている脚、余分な腕、余分な脚、融合した指、指が多すぎる、長い首

3. ビデオのスタイル化を実行し、Mov2Mov プラグインを開きます。ここでの推奨パラメーターは次のとおりです。

サンプルステップ = 20-30、
ムービー生成モード = XVID、
CFG スケール = 7-10、
ノイズ除去強度 = 0.2-0.3、
ムービーフレーム = 30、
Maxframe = 60-90、
コントロールネット選択有効、
コントロールウェイト 0.2-0.25。

「生成」をクリックすると、取得したビデオと元のビデオの比較は次のようになります。

251d4cc2f2ab367b4976df71439c3776.gif

f0c5c7747291e004f6a89ae83f3e77cf.gif

20d0514201f989d53311e80d41541833.gif

テーマを備えた様式化されたビデオ

Stable Diffusion コミュニティには、スタイル化されたビデオ生成プラグインが豊富にあり、その中でも Deforum は最も人気のあるプラグインの 1 つであり、その原理は、タイムライン上のキー フレームを決定し、クリア プロンプトによって生成されたクリエイティブなイメージを使用することです。キー フレーム間のトランジション ビデオ フレームは、プログレッシブを採用し、特定の 2D および 3D 空間回転と組み合わせて独特の効果を生み出します。この方法でのプロンプト ワードは、通常、スクリプトの形式になります。原理は次の図に示されています。

f3885c85d68da948521cb8ed12fe5c20.jpeg

様式化されたビデオまたはクリエイティブビデオの観点から、特定のスクリプトをプロンプトに変換し、その後デフォーラムシリーズを通じて、特定のテーマを表現するクリエイティブビデオの効果を達成できます。困難:

  1. 何もないところから脚本を書いて、現実的なテーマと創造的なビデオを結びつけるのは困難です。

  2. クリエイティブなビデオ/スタイル化されたビデオ エフェクトは依然としてクリエイティブな画像によって接続されているため、エフェクトの制御が難しく、ビデオの生成は画像の生成よりもはるかに多くのコンピューティング パワーを消費するため、ビデオの無駄とコンピューティング パワーの浪費が発生します。

そこで、ここでは、実際のビデオとクリエイティブなビデオの間の簡単なクロスレゾナンスの方法で作成することもできます。ここでの実際のビデオは、携帯電話で撮影した 2 ~ 3 秒のビデオだけで済み、開始ビデオとして使用できます。ここに例を示します: 著者は、地方博物館で開催されているシリアの文化遺物の展示を訪れ、突然感情的になりました。文化遺物を見たときに千年紀の変化について感じたことを表現するために、数十秒の様式化された短いビデオを作成したいと思いました。次の具体的な手順を実行します。

1. 最初のテーマを表す 3 ~ 5 分の自撮りビデオを最初のビデオとして撮影します。クリエイティブなビデオをソーシャル メディアに投稿することが目的であるため、携帯電話のサイズに適応させる必要があるため、ビデオの解像度は 540*960 です。

2. モデルやプラグインなどのWeb UIの基本環境を準備する

3. 初期ビデオの特定のフレームを初期フレームとして設定します。ここでは最後のフレームを初期フレームとしてキャプチャします。画像の解像度は 540*960 です。Deforum で初期フレームを設定し、init タブで Use init を選択します。ファイルアドレスを入力します

f84d9f7cede31942991a732c7c0d19fb.jpeg

4. プロンプトワードを設定し、回転パラメータを設定します。以下の表にパラメータと推奨値のリストを示します。

864b9f​​7baef03088b86c97281b528e45.png

5. 適切な様式化されたプロンプトを配置し、ビデオを生成します。プロンプトは JSON 形式である必要があります。このルールに基づいて、ビデオのプロットを配置します。

促された言葉は次のとおりです。

{ "0": 「暗く嵐の空の下、ひび割れた大地のあるシリアの荒涼とした風景の中の戦士、ピカソ風」、"50": 「大地からの太陽の光、シリアの古代遺跡と神秘的なシンボル、ピカソ風」 、「150」: 「シリアのエジプト風の建物、ピカソ風」、「200」: 「さまざまな人種や文化の人々が入り混じり、街路や市場で交易するローマ風の都市、シリアの市場、ピカソ風」、「250」: 「シリアの東と西の国々の間の戦争、王たちは自然と魔法のバランスを保とうとしており、もう一方の王たちは権力と利益のためにそれを利用したいと考えている、ピカソ風」、「300」:「銃煙と花、将軍の演説」 、ピカソ風」、






「450」: 「空での爆弾の爆発、火災、炎と煙、血と灰、ピカソ風 - 壮大ではない」、「500」: 「
国民の運命、平和な希望、ピカソ風」
}

逆のキューワード:

NSFW、最悪の品質、低品質、醜い、重複、病的、切断された、余分な指、変異した手、下手に描かれた手、下手に描かれた顔、突然変異、変形、ぼやけた、脱水症状、悪い解剖学、悪いプロポーション、余分な手足、クローンの顔、外観が損なわれている、全体的なプロポーション、奇形の手足、失われた腕、失われた脚、余分な腕、余分な脚、融合した指、多すぎる指、長い首

6. 編集ソフトウェアを使用して実際のビデオとクリエイティブ ビデオをエンドツーエンドで接続し、完全なビデオを作成します。

要約する

この記事では、汎エンターテインメント業界におけるビデオ コンテンツ制作シナリオを簡単に紹介し、さまざまなプラグインやツールを連携させることで、様式化されたクリエイティブなビデオを生成するという目標を達成できます。もちろん、これは氷山の一角にすぎませんが、汎エンターテイメント産業への応用では、新しいプラグインやモデルを常に追跡することで、技術の反復に従って汎エンターテイメント コンテンツの継続的な革新を実現できます。場合によっては、いくつかの標準的なメディア制作ツールと組み合わせて、クリエイティブなコンテンツを効率的に制作するという目標を達成するための継続的な最適化を行うことができます。

参考文献

1. 生成 AI 産業ソリューション ガイド:

https://aws.amazon.com/cn/campaigns/aigc/

2. 生成 AI 産業ソリューション ガイド ワークショップ:

https://catalog.us-east-1.prod.workshops.aws/workshops/bae25a1f-1a1d-4f3e-996e-6402a9ab8faa

3. 安定拡散ウェブイ:

https://github.com/AUTOMATIC1111/stable-diffusion-webui

4.ハグ顔:

https://ハギングフェイス.co/

この記事の著者

3cdef00920e38cace3b177f3027bc00b.jpeg

ミン・チー

Amazon クラウド テクノロジー業界のソリューション アーキテクト。主にメディア業界関連の技術ソリューションを担当し、仮想現実、複合現実、生成 AI などの汎エンターテインメント業界における革新的なテクノロジーと顧客体験関連のソリューションの構築と推進に尽力しています。 、デジタル Ren らの指揮のもと、彼は建築設計と製品開発に長年の経験を持っています。

a2083992d513a02363f951e78349a4d7.jpeg

白い鶴

Amazon クラウド テクノロジー メディア業界の教授レベルのシニア エンジニア、シニア ソリューション アーキテクト。コンバージド メディア システム、コンテンツ制作プラットフォーム、超高解像度エンコーディングのクラウド ネイティブ機能などのアーキテクチャ設計に重点を置いており、メディア関連の多くの分野で豊富な経験を持っています。デジタル変革の経験。

6ce66ca10b750d3dcfe15440272ab45a.jpeg

唐哲

Amazon クラウド テクノロジー業界のソリューション アーキテクト。Amazon ウェブサイト サービスに基づくクラウド コンピューティング ソリューションのコンサルティングとアーキテクチャ設計を担当し、Amazon クラウド サービスのナレッジ システムの普及と普及に尽力しています。ソフトウェア開発、セキュリティ保護などの実務経験を持ち、現在は電子商取引やライブブロードキャストの分野に注力している。

b0b0b6c3b1da8d345f58ba0edb261db1.gif

00cb5bf1f713102fb4066c393a2d9b9b.gif

聞いたので、下の 4 つのボタンをクリックしてください

バグに遭遇することはありません!

aa0cc73952ec849b22fa855b2f462538.gif

おすすめ

転載: blog.csdn.net/u012365585/article/details/132267913