- 2ヶ月前
- 1
- 1k
Sadtalker を Stable Diffusion と統合する方法
Stable Diffusion は、テキスト記述に基づいて高品質な画像を生成できる深層学習モデルであり、潜在拡散モデルと呼ばれる生成ネットワーク アーキテクチャを使用しており、通常の GPU で実行できます。Sadtalker は、写真と音声からビデオを生成できるオープン ソース プロジェクトで、SadNet と呼ばれるニューラル ネットワークを使用して、定型化された 1 枚の写真で話している顔のアニメーションを実現します。このチュートリアルでは、Stable Diffusion と Sadtalker を組み合わせてテキストからビデオへの生成を実現する方法を紹介します。
準備
このチュートリアルを完了するには、次のものが必要です。
- Windows システムがインストールされているコンピュータ、できれば少なくとも 8GB のビデオ メモリを搭載した NVIDIA または AMD グラフィックス カードを搭載したコンピュータ
- Stable Diffusion のコードとモデル ファイルは、GitHub - Stability-AI/stablediffusion: High-Resolution Image Synthesis with Latent Diffusion Modelsからダウンロードできます。
- Sadtalker のコードとモデル ファイルはここからダウンロードできます: GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
- Notepad++ や Visual Studio Code などのテキスト エディター
- Audacity や Adobe Audition などのオーディオエディター
- VLC や Windows Media Player などのビデオ プレーヤー
ステップ 1: 画像を生成する
まず、安定拡散を使用して、必要なテキストの説明に基づいて画像を生成する必要があります。Stable Diffusion Online Web サイトを使用してこの機能を迅速に実装することも、Stable Diffusion コードをローカルで実行することもできます。
安定拡散オンライン Web サイトを使用する
- ブラウザを開いて https://stablediffusionweb.com/ にアクセスしてください。
- 入力ボックスに、生成する画像の説明テキストを入力します (例: 「赤いドレスを着た女の子が草の上で踊っています」)
- 「生成」ボタンをクリックし、数秒待つと、生成された画像が表示されます。
- 「ダウンロード」ボタンをクリックして画像をコンピュータに保存します
Stable Diffusion のコードをローカルで実行する
- コマンド ライン ウィンドウを開き、Stable Diffusion のコード ディレクトリに入ります。
- 次のコマンドを入力して、必要な依存関係をインストールします。
pip install -r requirements.txt
- 次のコマンドを入力して、事前トレーニングされたモデル ファイルをダウンロードします。
python download_model.py
- 次のコマンドを入力して、生成する画像のテキスト説明に従って画像を生成し、出力フォルダーに保存します。
python generate.py --prompt "一个穿着红色连衣裙的女孩在草地上跳舞" --output output/girl.jpg
ステップ 2: 音声を録音する (続き)
Adobe Auditionを使用してオーディオを録音する(続き)
- メニューバーの「ファイル」→「新規作成」→「オーディオファイル」をクリックします。
- ポップアップ ダイアログ ボックスで、ファイル名 ( girl など) を入力し、サンプリング レートを 44100 Hz、チャンネルをモノラル、形式を MP3 として選択します。
- 「OK」ボタンをクリックして新しいオーディオファイルを作成します
- 赤い録音ボタンをタップして、言いたいことの録音を開始します。たとえば、「こんにちは、私はダンスガールです」などです。
- スペースバーを押して録音を終了します
- メニューバーの「ファイル」→「保存」をクリックします
- ポップアップ ダイアログ ボックスで、出力フォルダーなどの保存場所を選択します。
ステップ 3: ビデオを生成する
最後に、Sadtalker を使用して、生成された画像と音声をビデオに結合する必要があります。これを実現するには、Sadtalker のコードをローカルで実行できます。
Sadtalker のコードをローカルで実行する
- コマンド ライン ウィンドウを開き、Sadtalker のコード ディレクトリを入力します。
- 次のコマンドを入力して、必要な依存関係をインストールします。
pip install -r requirements.txt
- 次のコマンドを入力して、事前トレーニングされたモデル ファイルをダウンロードします。
python download_model.py
- 次のコマンドを入力して、生成した画像と音声に基づいてビデオを生成し、出力フォルダーに保存します。
python generate.py --image output/girl.jpg --audio output/girl.mp3 --output output/girl.mp4
エピローグ
おめでとうございます。Stable Diffusion と Sadtalker を使用してテキストからビデオへの生成を実現するチュートリアルが完了しました。生成されたビデオは出力フォルダーで見つけて、任意のビデオ プレーヤーで視聴できます。さまざまなテキスト説明や音声を含むさまざまなビデオを生成してみることもできます。この楽しい創造的なプロセスを楽しんで、想像力と創造性を発揮していただければ幸いです。