SadTalker に基づく AI デジタル ヒューマン ビデオ (AutoDL コンピューティング パワー クラウド プラットフォームの展開を例として)

目次

1.SadTalkerの紹介

2. 準備

3. デジタルヒューマンケース(写真からビデオへ)

4. ディスプレイ効果

5. 参考文献


1.SadTalkerの紹介

SadTalker は、写真付きのデジタル ヒューマン ブロードキャスト ビデオを生成できる、オープンソースのバーチャル デジタル ヒューマン制作ツールです。SadTalker は 3DMM の 3D (頭のポーズ、表情) 係数を生成し、ビデオ生成に 3D 顔レンダラーを使用します。SadTalker は、アプリケーションをより適切にカスタマイズするために、静的モード、参照モード、サイズ変更モードなどのいくつかの新しいモードも提供します。

2. 準備

AutoDL イメージをデプロイし、ターミナルを開きます。

導入チュートリアル: Wav2Lip+GFPGAN に基づく AI デジタル ヒューマン ビデオ (例として AutoDL コンピューティング パワー クラウド プラットフォームの導入を取り上げます)

Baidu ネットワーク ディスクからソース コードを AutoDL にダウンロードします (ソース コードには重みが含まれており、怠け者には必須なので、強くお勧めします)。

リンク: https://pan.baidu.com/s/1etXmmJ_ftwVSaqIe1EK37g?pwd=i2on 

コードの抽出: i2on 
 

次のコマンドを実行してソース コードをダウンロードすることもできます。(ソース コードをダウンロードするには追加のダウンロード ウェイトが必要ですが、これはお勧めしません。)

(なお、このSadTalkerのバージョンはv0.0.2です)

git clone https://github.com/Winfredy/SadTalker.git

まず cd で SadTalker ディレクトリに移動し、次のコマンドを段階的に実行します。

sudo apt update

sudo apt install ffmpeg

pip install -r requirements.txt

3. デジタルヒューマンケース(写真からビデオへ)

コマンド ラインに次のコマンドを入力してモデルを実行します。

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 または picture.png> \
                    --result_dir <結果を保存するファイル> \
                    --still \
                    --preprocess full \
                    --enhancer gfpgan

次のコマンドは私の入力例です。参照のみを目的としており、これらのパスは変更する必要があります。

python inference.py --driven_audio AIHuman/audio/AIHuman.mp3 --source_image AIHuman/images/03.jpeg --result_dir AIHuman/results --still --preprocess full --enhancer gfpgan

パラメータの説明

--driven_audio: 入力オーディオ ファイル パス。
--source_image: 入力画像ファイル パス。オーディオ ファイルとビデオ MP4 形式をサポートします。
--checkpoint_dir: モデルの保存パス。
--result_dir: データ エクスポート パス。
--enhancer: HD モデル、gfpgan または RestoreFormer を選択

4. ディスプレイ効果

 

5. 参考文献

参考プロジェクト: SadTalker - GitHub

参考資料:SadTalkerベースのAIアンカー、安定拡散も可能_データヤン氏のブログ - CSDNブログ

おすすめ

転載: blog.csdn.net/Little_Carter/article/details/131360227