AI digital human: entrenamiento de generación de voz en chino basado en el modelo VITS

1 Introducción al modelo VITS

        VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) es un modelo de síntesis de voz altamente expresivo que combina la inferencia variacional, la normalización de flujos y el entrenamiento contradictorio.

        El modelo VITS fue propuesto por la Academia de Ciencias de Corea en junio de 2021. VITS conecta el modelo acústico y el codificador de voz en la síntesis de voz a través de variables ocultas en lugar de espectro. El modelado aleatorio se realiza en variables ocultas y se utiliza un predictor de duración aleatoria para mejorar la Diversidad de voz sintetizada, ingresando el mismo texto, se puede sintetizar voz con diferentes tonos y ritmos.

        Dirección del papel: Papeles VITS

2 Estructura del modelo VITS

VITS incluye principalmente 3 piezas:

  • Codificador automático variacional condicional (Codificador automático variacional, VAE)
  • Estimaciones de alineación a partir de la inferencia variacional
  • Entrenamiento Generativo Adversario

El hito de la síntesis de voz VITS completa TTS de extremo a extremo, los principales puntos de avance son los siguientes:

(1) El primer modelo E2E completo cuya naturalidad supera la arquitectura de 2 etapas SOTA. MOS4.43, solo 0.03 más bajo que la grabación GT. Afirma que el sistema público actual funciona mejor.

(2) Gracias a la investigación de la introducción de Flow en VAE para mejorar el efecto de generación en el campo de la imagen, Flow-VAE se aplicó con éxito a la tarea completa de E2E TTS.

(3) El entrenamiento es muy simple, completamente E2E. No es necesario agregar funciones adicionales como tono y energía como los modelos de la serie Fastspeech, y no es como la mayoría de las arquitecturas de 2 etapas que necesitan ajustar el vocoder de acuerdo con la salida del modelo acústico para lograr los mejores resultados.

(4) Deshágase del espectro acústico preestablecido como la característica de vincular el modelo acústico y el vocoder, y aplique con éxito la representación implícita de aprendizaje de VAE a E2E para vincular los dos módulos.

(5) La naturalidad del modelo de múltiples altavoces no disminuye, a diferencia de otros modelos que tienden a ser planos en la puntuación de MOS de grabación de GT

3 Uso del modelo vits para el entrenamiento de síntesis de voz en chino

Descarga del proyecto 3.1 GitHub:

git clone https://github.com/PlayVoice/vits_chinese

3.2 Construir el entorno operativo:

Para obtener detalles sobre la configuración del entorno de annoconda, consulte: instalación y uso de annoconda

conda create -n vits pyton==3.9

conda activate vits

cd vits_chinese

pip install -r requirements.txt

cd monotonic_align

python setup.py build_ext --inplace

3.3 Descarga del conjunto de datos:

Descargue el conjunto de datos de voz masculina Biaobei, la frecuencia de muestreo es 22050, la dirección de descarga es la siguiente:

Conjunto de datos de voz masculina de Bibei (el primer paquete)

Conjunto de datos de voz masculina de Bibei (el segundo paquete)

Datos anotados del conjunto de datos de voz masculina de Biaobei

Una vez completada la descarga, descomprima el conjunto de datos y colóquelo en el directorio "vits_chinese/data/waves", y coloque los datos etiquetados en

En el directorio "vits_chinese/data"

3.4 Descarga del modelo de pre-entrenamiento:

Descarga del modelo prosódico: modelo prosódico

Una vez completada la descarga, vaya al directorio "vits_chinese/bert/"

3.5 Preprocesamiento de datos:

Modifique el archivo de configuración: vi config/bert_vits.json

    "max_wav_value": 32768.0,
    "sampling_rate": 22050,
    "filter_length": 1024,
python vits_prepare.py -c ./configs/bert_vits.json

3.6 Empezar a entrenar

python train.py -c configs/bert_vits.json -m bert_vits

3.7 Inferencia después del entrenamiento

python vits_infer.py --config ./configs/bert_vits.json --model logs/bert_vits/G_700000.pth

Entre ellos, G_700000.pth es el modelo entrenado y el modelo de entrenamiento se especifica de acuerdo con la situación de entrenamiento real para la inferencia.

 4 Visualización de los resultados del entrenamiento

El efecto de generación de voz después del entrenamiento de 1000 épocas es el siguiente:

https://download.csdn.net/download/lsb2002/87832170d

 5 modelos pre-entrenados

Usando datos de voz masculinos estándar, usando Tasla-v100GPU, después de entrenar el modelo durante 700,000 épocas, el nuevo hablante puede entrenarse dos veces en este modelo para lograr una convergencia rápida. Dirección de descarga del modelo preentrenado

Después de la descarga, almacene el modelo en el directorio /vits_chinese/logs/bert_vits/ e inicie el segundo entrenamiento

        

Supongo que te gusta

Origin blog.csdn.net/lsb2002/article/details/130904876
Recomendado
Clasificación