[MFA] Windows 環境では、Montreal-Forced-Aligner を使用してオーディオをトレーニングおよび調整します

1.MFAをインストールする

公式インストールリンク
ここに画像の説明を挿入

1.アナコンダをインストールする

2. 仮想環境を作成して開始します

conda create -n aligner -c conda-forge montreal-forced-aligner
conda activate aligner
ここに画像の説明を挿入
ここに画像の説明を挿入

3.pyTorchをインストールする

CPU環境:
conda install pytorch torchvision torchaudio cpuonly -c pytorch
GPU環境:
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
ここに画像の説明を挿入

2. 新しい音響モデルのトレーニング

1. データセットが正しい形式であることを確認します

mfa validate ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt

~/mfa_data/my_corpus : データセット
~/mfa_data/my_dictionary.txt : Dictionary
このコマンドはコーパスを調べ、MFA がすべてを正しく解析することを確認します。MFA は、いくつかの異なるタイプのコーパス形式と構造をサポートしますが、一般に中心的な要件は、サウンド ファイルと文字起こしファイルのペアが同じ名前 (拡張子を除く) である必要があることです。バリデータの出力を確認して、話者の数、ファイルと文の数が予想どおりであること、および語彙不足 (OOV) 項目の数が多すぎないことを確認します。

ここに画像の説明を挿入
ここに画像の説明を挿入

2. サウンド モデルをトレーニングします - モデルとアライメント ファイルをエクスポートします

mfa train ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt ~/mfa_data/new_acoustic_model.zip  # 仅导出声音模型
mfa train ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt ~/mfa_data/my_corpus_aligned  # 仅导出对齐文件
mfa train ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt ~/mfa_data/new_acoustic_model.zip ~/mfa_data/my_corpus_aligned  # 导出声音模型和对齐文件

データが大きい場合は、MFA で使用されるジョブの数を増やす必要がある場合があります。
トレーニングが成功すると、出力ディレクトリに TextGrids が表示されます。TextGrid のエクスポートは、トレーニングされた音響モデルを使用して実行する場合と同じです。
音響モデルのエクスポートを選択した場合、辞書に確率を追加することによる新しいデータの発音辞書の最適化 (mfa train_dictionary) や音声ファイルの文字起こし (mfa transcribe) など、このモデルを他のユーティリティやユースケースに使用できるようになります。

ここに画像の説明を挿入
トレーニングが終わるまで待っててね〜

3. エラー処理

1. 次のようなエラーが発生しました: コマンド '['createdb',–host=' ', 'Librispeech']' がゼロ以外の終了ステータス 1 を返しました

クリック: サービスが開始されていないことが原因です

おすすめ

転載: blog.csdn.net/qq_46319397/article/details/129431602