PaddleSpeech (Python3.10) に基づいて、国家教師の「最後まで 1 つの鏡」幽霊と動物のビデオを作成するサウンド クローン作成、精巧かつ繊細な人工知能 AI

映画「萬江紅」公開後、国家教師のインタビュー動画が話題になり、無数のジョーカーに騙されて心霊ビデオが作られたが、確かにこの国家教師のインタビューテキストは極めて古典的であり、彼はあることを生き生きと描写している。私はそれをすべて信じていましたが、最終的には諦めて、それを埋め合わせるために必死に戻るというプロセスを完了できないことがわかりました。

最もとんでもないのは、彼のインタビューが、起こらなかった、意味の分からないことを、スタンドアップコメディに匹敵する非常に豊かな詳細で描写し、不条理な美しさを形成したことである。今回のインタビュー資料です。

小学生でもこのテキストに載せるのは難しい内容ではありませんが、吹き替えがネックになるというか、一般人が心霊映像や動物映像に携わるにはまだまだ敷居が高いのが現状です。人工知能AI技術により、パドルスピーチに基づいて国家教師の絶妙で繊細なオリジナルサウンドを複製することができ、一般の人も面白い吹き替えを再生できます。

データセットの準備とクリーニング

私たちの目的は、国家教師の声をクローンすることなので、国家教師の音声サンプルが必要です。ここでのサウンド サンプルは、so-vits- svc4.0 を使用して歌声をクローンするのと同じであり、比較的 "バックグラウンドノイズやブランククリップのないオーディオマテリアルには、国家教師とのインタビューのオリジナルビデオオーディオトラックも使用できます。

元のビデオ内の女性レポーターの質問の音声トラックを削除する必要があることに注意してください。削除しないと、モデルの推論効果に影響します。

その後、主にメモリ爆発の問題を防ぐために、トレーニング セット データが分割されます。これは、5 秒から 15 秒の長さのオーディオ トラック スライスに手動で分割することも、サードパーティのライブラリを使用して分割することもできます。

git clone https://github.com/openvpi/audio-slicer.git

次に、スクリプトを書きます。

import librosa  # Optional. Use any library you like to read audio files.  
import soundfile  # Optional. Use any library you like to write audio files.  
  
from slicer2 import Slicer  
  
audio, sr = librosa.load('国师采访.wav', sr=None, mono=False)  # Load an audio file with librosa.  
slicer = Slicer(  
    sr=sr,  
    threshold=-40,  
    min_length=5000,  
    min_interval=300,  
    hop_size=10,  
    max_sil_kept=500  
)  
chunks = slicer.slice(audio)  
for i, chunk in enumerate(chunks):  
    if len(chunk.shape) > 1:  
        chunk = chunk.T  # Swap axes if the audio is stereo.  
    soundfile.write(f'master_voice/{i}.wav', chunk, sr)  # Save sliced audio files with soundfile.

ここでの min_length の単位はミリ秒であることに注意してください。

元の動画には BGM がないため、前景音と背景音を分割する必要はありません。素材に BGM が含まれている場合は、spleeter を使用して分離することを検討してください。詳しくは、人工知能を参照してください。 AI Library Spleeter Free People サウンドとBGMの分離練習(Python3.10)なので、ここでは詳しく説明しません。

元のビデオの既存のノイズに満足できない場合は、noisereduce ライブラリを使用してノイズ低減処理を実行できます。

from scipy.io import wavfile  
import noisereduce as nr  
# load data  
rate, data = wavfile.read("1.wav")  
# perform noise reduction  
reduced_noise = nr.reduce_noise(y=data, sr=rate)  
wavfile.write("1_reduced_noise.wav", rate, reduced_noise)

トレーニング セットの数は 20 未満であってはなりません。音声トレーニングは小さなサンプルに適していますが、数が不十分であるとモデルの品質にも影響します。

最後に、一連のデータセットを取得します。

D:\work\speech\master_voice>dir  
 驱动器 D 中的卷是 新加卷  
 卷的序列号是 9824-5798  
  
 D:\work\speech\master_voice 的目录  
  
2023/06/13  17:05    <DIR>          .  
2023/06/13  20:42    <DIR>          ..  
2023/06/13  16:42           909,880 01.wav  
2023/06/13  16:43         2,125,880 02.wav  
2023/06/13  16:44         1,908,280 03.wav  
2023/06/13  16:45         2,113,080 04.wav  
2023/06/13  16:47         2,714,680 05.wav  
2023/06/13  16:48         1,857,080 06.wav  
2023/06/13  16:49         1,729,080 07.wav  
2023/06/13  16:50         2,241,080 08.wav  
2023/06/13  16:50         1,959,480 09.wav  
2023/06/13  16:51         1,921,080 10.wav  
2023/06/13  16:52         1,921,080 11.wav  
2023/06/13  16:52         1,677,880 12.wav  
2023/06/13  17:00         1,754,680 13.wav  
2023/06/13  17:01         2,202,680 14.wav  
2023/06/13  17:01         2,023,480 15.wav  
2023/06/13  17:02         1,793,080 16.wav  
2023/06/13  17:03         2,586,680 17.wav  
2023/06/13  17:04         2,189,880 18.wav  
2023/06/13  17:04         2,573,880 19.wav  
2023/06/13  17:05         2,010,680 20.wav  
              20 个文件     40,213,600 字节  
               2 个目录 399,953,739,776 可用字节

もちろん、トレーニング セットを準備するのが面倒な場合は、私が作成した分割をダウンロードすることもできます。誰もが自由で倹約しており、それぞれが必要なものを摂取しています。

链接:https://pan.baidu.com/s/1t5hE1LLktIPoyF70_GsH0Q?pwd=3dc6   
提取码:3dc6

この時点で、データセットの準備が整いました。

クラウドのトレーニングと推論

データセットの準備ができたので、トレーニングを開始できます。その前に、PaddlePaddle フレームワークを構成する必要がありますが、今回は、クラウド上で直接トレーニングすることを選択します。ローカルにデプロイしたい場合は、次のサイトにアクセスしてください: サウンドは良好です、外観は、人工知能 AI 音声モデルと動的な画像 (Python3.10) を一致させる PaddleGAN に基づいて、Play することができます。

まず、Paddle のクラウド プロジェクトのアドレスを入力します。

https://aistudio.baidu.com/aistudio/projectdetail/6384839

次に、クリックして環境を開始します。ここでは、より大きなビデオ メモリを備えたコンピューティング能力環境を選択するようにしてください。

ここでのマシンは Google の colab に似ており、原理的には無料で、コンピューティング パワー カードを消費して使用されます。

環境が正常に起動したら、依存関係をインストールする必要があります。

# 安装实验所需环境  
!bash env.sh  
!pip install typeguard==2.13

マシンを共有しているため、一度環境を閉じてしまうと、再入場時に再度インストール作業が必要となります。

パドルの依存関係をインストールした後、左側でファイル untitled.streamlit.py を見つけ、ファイルをダブルクリックして開き、Web ボタンをクリックして Web ページに入ります。

次に、Web ページで [ファイルの参照] ボタンをクリックして、以前に分割されたデータ セットをサーバーにアップロードします。

次に、「データの検証」ボタンをクリックしてデータセットを検証します。

最後に、モデルの名前とトレーニング ラウンドの数を入力し、[トレーニング] をクリックします。

TeslaV100 を例にとると、20 ファイルのデータセットに対する 200 ラウンドのトレーニングは約 5 分で完了できます。

モデルはデフォルトでプロジェクトのチェックポイント ディレクトリに保存され、ファイル名は master です。

[モデルのエクスポート] をクリックして古いモデルを上書きします。

最後に、オンライン推論:

ここでは 3 種類のボコーダー [PWGan]、[WaveRnn]、および [HifiGan] が事前に作成されています。3 つのボコーダーの効果と生成時間の間には比較的大きなギャップがあります。ここでは、妥協した PWGan ボコーダーが推奨されます。結局のところ、オンライン環境では、滞在時間ごとにコンピューティング パワー ポイントが消費されます。

合成が完了すると、国家教師のクローン音声を入手できます。

エピローグ

オンライン環境の構成は比較的単純ですが、音声のクローン作成タスクが完了したら、コンピューティング パワー ポイントの不必要な消費を防ぐために、時間内に環境を閉じる必要があることに注意してください。国家教師が皆さんにお伝えしたいこと:

链接:https://pan.baidu.com/s/1nKOPlI7P_u_a5UGdHX76fA?pwd=ygqp   
提取码:ygqp 

国家教師の幽霊動物ビデオのクローン音色バージョンが Youtube (B ステーション) にアップロードされました。ぜひ味わって鑑賞してください。

おすすめ

転載: blog.csdn.net/zcxey2911/article/details/131212693