Resumo dos modelos de código aberto para síntese de fala em chinês

Recentemente, tenho estado ocupado com a tentativa de modelo de clonagem de código aberto de voz, que é resumido da seguinte forma:

MockingBird: O recurso é que o som do clone é mais semelhante e as desvantagens são óbvias, a velocidade é lenta, cerca de 5 segundos, pode ser otimizada para cerca de 0,4-1,2 segundos e o valor MOS é baixo;

Vits: A característica é que o valor MOS público atual é o mais próximo do valor real, e a velocidade é relativamente rápida, cerca de 0,08-0,4 segundos; 

ms_istft_vits: A característica é que o desempenho é cerca de 4 vezes maior que o do vits, e a velocidade é mais rápida, cerca de 0,06-0,1 segundos, e o valor MOS está próximo do valor real.

Esses códigos de modelo são mais ou menos problemáticos e precisam ser reparados por você. Além disso, o código do modelo de treinamento multijogador da classe vits precisa ser modificado por você. Você pode usar pinyin ou fonemas, e fonemas mais pausas são melhores.

O treinamento multipessoal do modelo vits usa o conjunto de dados chinês AISHELL-3 multipessoal (174 pessoas, mais de 80.000 vozes) com taxa de amostragem de 8K, batch_size=16, e precisa ser treinado para 500K passos para obter melhores resultados . T4 GPU 16G precisa de cerca de 10 dias de treinamento. AISHELL single 10.000 vozes femininas com taxa de amostragem de 44K, o modelo leva cerca de 9 dias, o efeito de 240K passos é melhor e pode clonar o luar na lagoa de lótus.

Para caracteres polifônicos: você precisa manter seu próprio dicionário polifônico.

Em termos de aceleração: Quantização, conversão para onnx ou modelo de script falhou, o código não suporta e a conversão para traced_model foi bem-sucedida, mas o desempenho foi muito baixo, frases curtas levaram 10 segundos, desista.

Gráfico de comparação de valores MOS de papel:

 

 Comparação do valor MOS e desempenho de inferência única (unidade: segundo):

Acho que você gosta

Origin blog.csdn.net/wxl781227/article/details/127996110
Recomendado
Clasificación