论文: VITS2: Mejora de la calidad y la eficiencia de la conversión de texto a voz de una sola etapa con aprendizaje antagónico y diseño de arquitectura
Demostración: https://vits-2.github.io/demo/
Papel: https://arxiv.org/abs/2307.16430
Problemas que aún existen:
-
falta de naturalidad intermitente
-
baja eficiencia del predictor de duración
-
formato de entrada complejo para aliviar las limitaciones de alineación y modelado de duración (uso de token en blanco)
-
similitud de altavoces insuficiente en el modelo de altavoces múltiples
-
entrenamiento lento y fuerte dependencia de la conversión de fonemas.
Método propuesto:
-
un predictor de duración estocástico entrenado a través del aprendizaje adversarial
-
la normalización de los flujos mejoró al utilizar el bloque del transformador
-
un codificador de texto condicionado por el hablante para modelar mejor las características de múltiples hablantes.