記事ディレクトリ
1.MFAをインストールする
1.アナコンダをインストールする
2. 仮想環境を作成して開始します
conda create -n aligner -c conda-forge montreal-forced-aligner
conda activate aligner
3.pyTorchをインストールする
CPU環境:
conda install pytorch torchvision torchaudio cpuonly -c pytorch
GPU環境:
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
2. 新しい音響モデルのトレーニング
1. データセットが正しい形式であることを確認します
mfa validate ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt
~/mfa_data/my_corpus : データセット
~/mfa_data/my_dictionary.txt : Dictionary
このコマンドはコーパスを調べ、MFA がすべてを正しく解析することを確認します。MFA は、いくつかの異なるタイプのコーパス形式と構造をサポートしますが、一般に中心的な要件は、サウンド ファイルと文字起こしファイルのペアが同じ名前 (拡張子を除く) である必要があることです。バリデータの出力を確認して、話者の数、ファイルと文の数が予想どおりであること、および語彙不足 (OOV) 項目の数が多すぎないことを確認します。
2. サウンド モデルをトレーニングします - モデルとアライメント ファイルをエクスポートします
mfa train ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt ~/mfa_data/new_acoustic_model.zip # 仅导出声音模型
mfa train ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt ~/mfa_data/my_corpus_aligned # 仅导出对齐文件
mfa train ~/mfa_data/my_corpus ~/mfa_data/my_dictionary.txt ~/mfa_data/new_acoustic_model.zip ~/mfa_data/my_corpus_aligned # 导出声音模型和对齐文件
データが大きい場合は、MFA で使用されるジョブの数を増やす必要がある場合があります。
トレーニングが成功すると、出力ディレクトリに TextGrids が表示されます。TextGrid のエクスポートは、トレーニングされた音響モデルを使用して実行する場合と同じです。
音響モデルのエクスポートを選択した場合、辞書に確率を追加することによる新しいデータの発音辞書の最適化 (mfa train_dictionary) や音声ファイルの文字起こし (mfa transcribe) など、このモデルを他のユーティリティやユースケースに使用できるようになります。
トレーニングが終わるまで待っててね〜