目次
1.SadTalkerの紹介
SadTalker は、写真付きのデジタル ヒューマン ブロードキャスト ビデオを生成できる、オープンソースのバーチャル デジタル ヒューマン制作ツールです。SadTalker は 3DMM の 3D (頭のポーズ、表情) 係数を生成し、ビデオ生成に 3D 顔レンダラーを使用します。SadTalker は、アプリケーションをより適切にカスタマイズするために、静的モード、参照モード、サイズ変更モードなどのいくつかの新しいモードも提供します。
2. 準備
AutoDL イメージをデプロイし、ターミナルを開きます。
導入チュートリアル: Wav2Lip+GFPGAN に基づく AI デジタル ヒューマン ビデオ (例として AutoDL コンピューティング パワー クラウド プラットフォームの導入を取り上げます)
Baidu ネットワーク ディスクからソース コードを AutoDL にダウンロードします (ソース コードには重みが含まれており、怠け者には必須なので、強くお勧めします)。
リンク: https://pan.baidu.com/s/1etXmmJ_ftwVSaqIe1EK37g?pwd=i2on
コードの抽出: i2on
次のコマンドを実行してソース コードをダウンロードすることもできます。(ソース コードをダウンロードするには追加のダウンロード ウェイトが必要ですが、これはお勧めしません。)
(なお、このSadTalkerのバージョンはv0.0.2です)
git clone https://github.com/Winfredy/SadTalker.git
まず cd で SadTalker ディレクトリに移動し、次のコマンドを段階的に実行します。
sudo apt update
sudo apt install ffmpeg
pip install -r requirements.txt
3. デジタルヒューマンケース(写真からビデオへ)
コマンド ラインに次のコマンドを入力してモデルを実行します。
python inference.py --driven_audio <audio.wav> \
--source_image <video.mp4 または picture.png> \
--result_dir <結果を保存するファイル> \
--still \
--preprocess full \
--enhancer gfpgan
次のコマンドは私の入力例です。参照のみを目的としており、これらのパスは変更する必要があります。
python inference.py --driven_audio AIHuman/audio/AIHuman.mp3 --source_image AIHuman/images/03.jpeg --result_dir AIHuman/results --still --preprocess full --enhancer gfpgan
パラメータの説明
--driven_audio: 入力オーディオ ファイル パス。
--source_image: 入力画像ファイル パス。オーディオ ファイルとビデオ MP4 形式をサポートします。
--checkpoint_dir: モデルの保存パス。
--result_dir: データ エクスポート パス。
--enhancer: HD モデル、gfpgan または RestoreFormer を選択
4. ディスプレイ効果
5. 参考文献
参考プロジェクト: SadTalker - GitHub