IA : Introduction et pratique du clonage vocal MockingBird (générez le contenu vocal souhaité en quelques secondes)

Préface

Avec le développement continu de la technologie de l’intelligence artificielle, la technologie de clonage vocal fait également l’objet de plus en plus d’attention et de recherches. À l'heure actuelle, la technologie de clonage vocal de l'IA peut déjà permettre aux machines de simuler la voix d'une personne, et même de simuler les habitudes et expressions linguistiques d'une personne.

Cependant, la technologie de clonage vocal de l’IA se heurte encore à de nombreuses difficultés et points douloureux. Tout d'abord, la technologie de clonage vocal existante présente toujours des problèmes tels qu'une qualité vocale insuffisante et une restauration vocale insuffisante, ce qui rend difficile l'obtention d'un véritable « faux » effet. En réponse à ces difficultés et points douloureux, notre équipe a proposé une nouvelle solution de clonage vocal IA, MockingVoice, basée sur le projet open source MockingBird. En utilisant une technologie de synthèse vocale plus avancée et des mesures de protection de la vie privée plus strictes, elle permet d'obtenir des effets de clonage vocal de meilleure qualité. et Une expérience d'utilisation plus sûre et plus fiable. Nous pensons que cette nouvelle technologie de clonage vocal d'IA contribuera à offrir aux gens une expérience d'interaction vocale plus intelligente, plus pratique et plus sécurisée, et à offrir plus de possibilités dans la vie et le travail des gens.

1. Introduction à MockingBird

Insérer la description de l'image ici

MockingBird est un projet TTS (text-to-speech) avancé qui utilise des modèles d'apprentissage en profondeur pour générer une parole synthétique de haute qualité. Il a été développé par une équipe de chercheurs et d’ingénieurs passionnés par le traitement du langage naturel et les technologies vocales.

Principales caractéristiques : Prise en charge du mandarin. La formation est effectuée à l'aide de plusieurs ensembles de données chinois, notamment aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice et data_aishell, pour garantir que la parole générée semble naturelle et fluide et peut être utilisée dans diverses applications, notamment des assistants vocaux, des livres audio et des langues. outils d'apprentissage.

Cadre d'apprentissage profond : Pytorch. Utilise PyTorch comme principal framework d'apprentissage en profondeur et a été testé sur la dernière version de PyTorch 1.9.0 publiée en août 2021. Il prend en charge les GPU Tesla T4 et GTX 2060 pour des temps de formation et d'inférence plus rapides.

Extensibilité : facile à utiliser et à personnaliser. Un synthétiseur pré-entraîné est fourni pour une utilisation immédiate, ou entraînez le vôtre pour générer la parole selon vos besoins spécifiques. De plus, vous pouvez utiliser un encodeur et un vocodeur pré-entraînés, ou utiliser un HiFi-GAN en temps réel comme vocodeur pour générer une parole de haute qualité.

Servitisation : appel à distance. Mocking Bird prend en charge les services Web, ce qui signifie que vous pouvez facilement le déployer sur un serveur Web et l'utiliser pour générer de la parole à distance. Ceci est particulièrement utile pour les applications nécessitant une synthèse vocale en temps réel ou pour les utilisateurs qui n'ont pas accès à du matériel haut de gamme.

2. Pratique de déploiement

1. Installation de l'environnement

Environnement de test pour cet article : Puce Mac M1 macos Monterey
Étape 1 Télécharger le code : Téléchargez le code git, https://github.com/babysor/MockingBird
Étape 2 Installez anaconda : Vous pouvez le télécharger depuis la station miroir suivante : https:// repo.anaconda.com /archive/ Recherchez l'image adaptée à la version de votre machine, téléchargez-la et installez-la.
Une fois l'installation terminée, comme indiqué sur la figure :

Insérer la description de l'image ici

Étape 3 Créez un environnement Python virtuel.
Remarque : étant donné que le code du projet git d'origine repose sur différentes versions de bibliothèques tierces et que certaines bibliothèques ont des exigences pour les versions Python, il est recommandé d'installer selon la version indiquée dans cet article. Actuellement, il a été testé sur M1.
Exécuter la commande : conda create -n mock_voice python=3.9
Activer l'environnement virtuel mock_voice : conda activate mock_voice
Étape 4 Installez les bibliothèques dépendantes tierces.
Exécutez la commande directement : pip install -r requirements.txt
suivez essentiellement le git fourni dans cet article, il n'y a aucun problème de téléchargement et d'installation. Pendant le processus d'installation, si vous rencontrez quelque chose qui ne peut pas être installé, veuillez le rechercher vous-même sur Google.

2. Téléchargez le modèle pré-entraîné

Ici, nous pouvons télécharger directement le modèle formé par les développeurs de la communauté et l'utiliser directement. L'adresse de téléchargement est la suivante :

Lien de téléchargement information
https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g Lien disque Baidu 4j5d 75 000 étapes Formation mixte avec 3 jeux de données open source
https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw Code d'extraction de lien de disque Baidu : om7f 25 000 étapes Utilisez 3 ensembles de données open source pour une formation mixte, passez à la balise v0.0.1 pour une utilisation
https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing Code d'extraction de lien de disque Baidu : 1024 200 000 étapes L'accent taïwanais doit être remplacé par la balise v0.0.1 pour être utilisé
https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ Code d'extraction : 2021 150 000 étapes Remarque : corrigez en fonction du problème et passez à la balise v0.0.1 pour l'utiliser.

Nous téléchargeons le premier modèle et plaçons le fichier à l'adresse : data/ckpt/synthesizer/pretrained-11-7-21_75k.pt

3. Exécutez la boîte à outils

Étape 1 Utilisez Audacity pour enregistrer : Si nous utilisons la boîte à outils fournie avec MockingBird pour enregistrer, le son cloné final ne sera souvent pas bon. Nous devons utiliser des outils professionnels pour enregistrer notre propre voix et la débruiter. Téléchargez le logiciel : Audacity https://www.audacityteam.org/ et installez-le

Insérer la description de l'image ici

Ouvrez Audacity, cliquez sur l'enregistrement sonore et effectuez une réduction du bruit sur le son enregistré.

Insérer la description de l'image ici

Enfin, exportez le son enregistré personal_test.wav vers l'ordinateur local.

Étape 2 Exécutez la boîte à outils : Entrez la commande python demo_toolbox.py et une interface sera chargée.

Insérer la description de l'image ici

Étape 3 Charger l'enregistrement

Insérer la description de l'image ici

Étape 4 Synthétiser uniquement : Saisissez le texte chinois que vous souhaitez tester, puis cliquez sur le bouton Synthétiser uniquement.
Étape 5 Vocode uniquement : Cliquez sur le bouton Vocode uniquement

Insérer la description de l'image ici

Enfin, le son généré est joué.

3. Analyse et conclusion

1. Durée du son d'enregistrement

Il est préférable de limiter la durée de l’audio à cloner entre 3 et 8 secondes. Ceci est contraire à ce que beaucoup de gens pensent, selon lequel plus la parole entrée est longue, plus le timbre sera capturé avec précision. Cependant, la capacité à extraire les caractéristiques du timbre est limitée en raison des propriétés du modèle. Pour un son plus long, le modèle correspond uniquement à un modèle relativement petit, ce qui n'améliore pas la précision. Pendant l'entraînement, 110 secondes de parole sont généralement alimentées, donc certaines pauses inhabituelles dans le long audio peuvent rendre l'inférence trop divergente. Par conséquent, il est recommandé que la durée optimale de l’audio d’entrée soit de 3 à 8 secondes, pas aussi longue que possible.

2. Entrée audio pour supprimer le son/bruit de fond évident

Bien qu'après quelques optimisations, notamment après l'introduction de GST, la dernière base de code puisse extraire et séparer une partie des caractéristiques de bruit dans la partie encodeur du haut-parleur, réduisant ainsi l'impact du bruit, donc même s'il y a un certain bruit de fond, la synthèse de clone peut être effectué normalement. Cependant, le modèle original est toujours sujet à une perte d’extraction du timbre en raison du bruit de fond. Afin d'obtenir de meilleurs effets de clonage, nous vous recommandons d'utiliser des outils audio professionnels ou des outils comme l'outil open source Audacity pour prétraiter l'audio d'entrée afin de supprimer le bruit évident. Cela peut grandement améliorer l'effet de clonage.

3. Entrez l'audio pour vous assurer qu'il n'y a qu'une seule voix humaine

Après des tests réels, lorsque l'audio d'entrée contient les voix de plusieurs personnes, la voix clonée deviendra difficile à identifier (parfois même comme une voix fantôme) et ne pourra souvent pas générer un son qui répond normalement aux exigences de qualité et est sujette à mots manquants.

4. La voix de l'audio d'entrée doit être plate.

Au cours du processus de clonage, il est souvent difficile d’obtenir des caractéristiques de timbre précises pour les voix chantées et excitées. Par conséquent, afin d’obtenir de meilleurs résultats, il est recommandé que la voix parlée dans l’audio d’entrée ait une intonation normale.

5. Regardez le spectrogramme mel pendant la synthèse

Une certaine valeur aléatoire sera ajoutée pendant le processus de synthèse, vous pouvez donc essayer d'effectuer uniquement l'opération de synthèse (synthétiser), vérifier le diagramme du spectre Mel de la sortie d'inférence de synthèse, puis effectuer la sortie du vocodeur jusqu'à ce que des résultats satisfaisants soient obtenus. Ce qui suit est un meilleur diagramme du spectre Mel pour référence :

autre

Référence : [ AI Voice Clone] Clonez votre voix en 5 secondes et générez du contenu vocal arbitraire_Xiaohu AI Lab Blog-CSDN Blog

Je suppose que tu aimes

Origine blog.csdn.net/zhanggqianglovec/article/details/131454553
conseillé
Classement