论文: VITS2: 敵対的学習とアーキテクチャ設計による単一段階の音声合成の品質と効率の向上
デモ: https://vits-2.github.io/demo/
論文: https://arxiv.org/abs/2307.16430
まだ存在する問題:
-
断続的な不自然さ
-
期間予測器の効率が低い
-
アライメントと期間モデリングの制限を軽減するための複雑な入力形式 (空のトークンの使用)
-
マルチスピーカーモデルにおけるスピーカーの類似性が不十分
-
トレーニングに時間がかかり、音素変換に強く依存します。
提案された方法:
-
敵対的学習を通じて訓練された確率的期間予測子
-
変圧器ブロックを利用することでフローの正規化を改善
-
複数の話者の特性をより適切にモデル化するための話者条件付きテキスト エンコーダ。