VITS2 está chegando ~

  Descrição: VITS2: Melhorando a qualidade e a eficiência da conversão de texto em fala de estágio único com aprendizagem adversária e design de arquitetura

  Demonstração: https://vits-2.github.io/demo/

  Artigo: https://arxiv.org/abs/2307.16430

foto

foto

Problemas que ainda existem:

  1. antinaturalidade intermitente

  2. baixa eficiência do preditor de duração

  3. formato de entrada complexo para aliviar as limitações de modelagem de alinhamento e duração (uso de token em branco)

  4. semelhança de alto-falante insuficiente no modelo de vários alto-falantes

  5. treinamento lento e forte dependência da conversão fonêmica.

Método proposto:

  1. um preditor de duração estocástico treinado por meio de aprendizagem contraditória

  2. fluxos de normalização aprimorados ao utilizar o bloco do transformador

  3. um codificador de texto condicionado por alto-falante para modelar melhor as características de vários alto-falantes.

foto

Acho que você gosta

Origin blog.csdn.net/weixin_48827824/article/details/132337327
Recomendado
Clasificación