Professional Practice Record II: Synthèse vocale de bout en bout par transfert de timbre croisé

0. Description

Ce qui est enregistré, c'est le travail entre le 16/12/2020 et le 16/01/2021

1. Ingénierie

1.1. Système de synthèse de langage mixte commercial parfait

Suite aux travaux du mois dernier, dans le cadre d'un corpus bilingue, réaliser la synthèse de textes mixtes

Le nom système de cette partie est: Fantasy Mix-Lingual Tacotron

1.1.1. Détails expérimentaux

Le corpus utilisé est: la formation à l'aide de l'ensemble de données bilingues shell standard du laboratoire, et le corpus virtuel bilingue Chunchun de Ping An Technology

Les modèles essayés au total sont:

  • Fantasy Mix-Lingual Tacotron Version 2: Utilisez Grapheme , conservez l'ID de langue, utilisez le module VAE
  • Fantasy Mix-Lingual Tacotron Version 4: Utilisez Phoneme , conservez l'ID de langue, utilisez le module VAE
  • Fantasy Mix-Lingual Tacotron Version 5: Utilisez Phoneme, conservez l'ID de langue, supprimez le module VAE
  • Fantasy Mix-Lingual Tacotron Version 6: Utilisez Phoneme, supprimez l'ID de langue , utilisez le module VAE
  • Fantasy Mix-Lingual Tacotron Version 7: Utilisez Phoneme, supprimez l'ID de langue, supprimez le module VAE
  • Version révisée de Fantasy Mix-Lingual Tacotron Version 4: l' ID de langue est épissé à l' avance au codage TXT, et le reste reste inchangé

1.1.2. Phénomènes expérimentaux et conclusions

  • La version révisée de Fantasy Mix-Lingual Tacotron Version 4 a le meilleur effet, qui peut obtenir l'effet de synthèse normale de texte en langues mixtes.
  • Phoneme est bien meilleur que Grapheme
  • L'ID de langue doit être conservé, que le terminal de sortie distingue ou non les représentations d'entrée dans différentes langues
  • La compréhension du module VAE ne suffit pas et l'effet reflète le manque de tests. Mais intuitivement, chaque partie de l'effet de synthèse de texte en langage mixte est plus naturelle

1.1.3. Travaux futurs

Empaquetez la version révisée de Fantasy Mix-Lingual Tacotron Version 4 et lancez la version Web

1.2. La structure de conversion de tonalité croisée proposée par Ali

1.2.1. Cartographie du spectre PPG à MEL basée sur Tacotron

  • Sous-échantillonnage PPG
  • Tentative de figer la position de Fine-Tune
  • Essai de niveau affiné

1.2.2. Mise en œuvre du code

  • Comparez les corrections structurelles d'Ali par rapport à Tacotron
  • Implémentation Pytorch basée sur r9y9

1.2.3. Travaux futurs

  • Structure d'Alibaba PPG-TTS qui réalise le meilleur Fine-Tune

1.3. Récurrence d'AutoVC

Reproduisez les articles d'AutoVC et explorez les conditions qui affectent les résultats expérimentaux

  • Perte similaire: Inférence de la perte de contenu d'AutoVC, discussion sur l'influence de la structure d'auto-codage
  • L'influence de l'extraction de différents hyperparamètres acoustiques sur les résultats expérimentaux
  • Dimensionnalité proposée par AutoVC et rôle du sous-échantillonnage
  • La différence entre les solutions One-hot et Speaker Encoder

La conclusion de l'expérience est appliquée à l'article

2. Recherche

2.1. Solution de synthèse multilingue de transfert de voix

2.1.1. Idées

  • Solution basée sur un encodeur de tonalité pour extraire les informations de tonalité
  • Formation de modèles acoustiques sans corpus de langue source
  • Utilisez uniquement le corpus de la langue cible pour entraîner le modèle acoustique
  • Non applicable au modèle de formation de corpus de locuteurs cibles
  • Utilisez uniquement plusieurs haut-parleurs sources pour entraîner le modèle, en vous appuyant sur plusieurs haut-parleurs pour créer un espace de fonctions de timbre parfait
  • Se fier principalement à un bon module d'encodeur de haut-parleur pour communiquer la relation entre la tonalité cible et plusieurs tonalités source

2.1.2. Résultats expérimentaux

  • L'effet de synthèse expérimentale cross-language est bien meilleur que le schéma précédent
  • Limitée par la modélisation du timbre et les conflits d'informations, la similitude et la stabilité de synthèse du timbre ne sont toujours pas assez bonnes

2.1.3. Travaux futurs

  • Améliorer le schéma de synthèse multilingue de Voice Transfer en se référant à l'article de l'Université nationale de Taiwan pour atteindre la stabilité de la synthèse

2.2. Le rôle de la perte similaire dans le TTS à auto-codage PPG

2.2.1. Idées

  • CopyVC: utilisez le PPG de Similar Loss comme structure d'entrée basée sur le cadre de synthèse multilingue Google-19 Tacotron

2.2.1. Travaux futurs

  • Perfectionnez l'idée de CopyVC et réalisez-la

3. Tâches de l'étape suivante

  • Empaquetez la version révisée de Fantasy Mix-Lingual Tacotron Version 4 et lancez la version Web
  • Structure d'Alibaba PPG-TTS qui réalise le meilleur Fine-Tune
  • Améliorer le schéma de synthèse multilingue de Voice Transfer en se référant à l'article de l'Université nationale de Taiwan pour atteindre la stabilité de la synthèse
  • Résumer les méthodes de découplage des informations d'AutoVC et des articles participants, telles que l'utilisation d'une perte similaire, qui est utilisée dans la synthèse multilingue
  • Perfectionnez et réalisez l'idée de CopyVC basé sur l'auto-encodage PPG

Je suppose que tu aimes

Origine blog.csdn.net/u013625492/article/details/113393773
conseillé
Classement