VITS2 está llegando ~

  论文: VITS2: Mejora de la calidad y la eficiencia de la conversión de texto a voz de una sola etapa con aprendizaje antagónico y diseño de arquitectura

  Demostración: https://vits-2.github.io/demo/

  Papel: https://arxiv.org/abs/2307.16430

imagen

imagen

Problemas que aún existen:

  1. falta de naturalidad intermitente

  2. baja eficiencia del predictor de duración

  3. formato de entrada complejo para aliviar las limitaciones de alineación y modelado de duración (uso de token en blanco)

  4. similitud de altavoces insuficiente en el modelo de altavoces múltiples

  5. entrenamiento lento y fuerte dependencia de la conversión de fonemas.

Método propuesto:

  1. un predictor de duración estocástico entrenado a través del aprendizaje adversarial

  2. la normalización de los flujos mejoró al utilizar el bloque del transformador

  3. un codificador de texto condicionado por el hablante para modelar mejor las características de múltiples hablantes.

imagen

Supongo que te gusta

Origin blog.csdn.net/weixin_48827824/article/details/132337327
Recomendado
Clasificación