中国語音声合成のオープンソース モデルの概要

最近、私は音声オープンソース クローン モデルの試みに忙しくしています。その概要は次のとおりです。

MockingBird: 特徴は、クローンのサウンドがより似ていることですが、欠点は明らかで、速度が約 5 秒と遅いですが、約 0.4 ~ 1.2 秒に最適化でき、MOS 値が低いです。

Vits: 現在公開されている MOS 値が実際の値に最も近く、速度が比較的速く、約 0.08 ~ 0.4 秒であることが特徴です。 

ms_istft_vits: vits の約 4 倍の性能と速度が 0.06 ~ 0.1 秒程度と速く、MOS 値が実際の値に近いのが特徴です。

これらのモデル コードには多かれ少なかれバグがあるため、自分で修正する必要があります。さらに、vits クラスのマルチプレイヤー トレーニング モデル コードも自分で変更する必要があります。ピンインまたは音素を使用でき、音素とポーズの使用による効果も得られます。優れている。

vits モデルの複数人トレーニングでは、8K サンプリング レート、batch_size=16 の AISHELL-3 複数人 (174 人、80,000 以上の音声) 中国語データ セットを使用します。より良い結果を得るには、500K ステップまでトレーニングする必要があります。 。T4 GPU 16G には約 10 日間のトレーニングが必要です。AISHELL のシングル 10,000 人の女性の声は 44K サンプリング レートで、モデルには約 9 日かかり、240K ステップの効果がより良く、蓮の池の月明かりのクローンを作成できます。

多声文字の場合: 独自の多声辞書を維持する必要があります。

高速化の点では、量子化、onnx またはスクリプト モデルへの変換に失敗しました。コードはサポートされていません。traced_model への変換は成功しましたが、パフォーマンスが非常に低く、短い文には 10 秒かかりました。諦めました。

紙のMOS値比較表:

 

 MOS値と単一推論性能の比較(単位:秒):

おすすめ

転載: blog.csdn.net/wxl781227/article/details/127996110