2023.05.09-Utilisez l'IA pour cloner la voix de Stefanie Sun pour chanter

1. Introduction

  • Si nous voulons cloner la voix de Stefanie Sun, l'idée générale est très simple : d'abord, trouver quelques voix que Stefanie Sun chante sans accompagnement, puis mettre cette voix dans le modèle pour l'entraînement et l'ajustement, afin que l'IA puisse apprendre le style vocal de parole. , et enfin utiliser ce modèle entraîné pour le raisonnement et le transfert de style, de sorte qu'un audio de Stefanie Sun chantant les chansons d'autres personnes soit produit.

2. Collecte de ressources

3. Préparez l'ensemble de données

  • L'ensemble de données audio utilisé pour l'entraînement doit être divisé en 10 secondes d'audio. S'il est trop long, cela fera déborder la mémoire vidéo.
  • Plus il y a d'ensembles de données, mieux c'est, mais d'une manière générale, si vous souhaitez obtenir un meilleur effet d'entraînement, 200 clips de 10 secondes devraient suffire.

3.1. Séparation vocale

3.2. Découpage de l'audio

  • Utilisez [Audio Slicer](…/…/…/…/…/…/…/…/…/audio/audio slice/Audio Slicer.md) pour effectuer ce travail github.com/openvpi/audio
    slicer

3.2.1.

3.3. Exigences relatives au format de stockage des ensembles de données

  • Placez tous les ensembles de données dans le dossier dataset_raw

4. Formation

4.1. Démarrez Web UI.bat

  • Une page Web de formation apparaîtra automatiquement par la suite.
  • 127.0.0.1:7860/
  • Pendant l'entraînement, vous avez besoin d'une carte N prenant en charge CUDA et d'une mémoire vidéo de 6 Go ou plus.

4.2. Identifier les ensembles de données

  • Cliquez sur les données de reconnaissance définies dans l'onglet formation,
  • Il reconnaîtra automatiquement le fichier audio que nous venons de placer dans le dossier dataset_raw.

4.3. Prétraitement des données

  • Ce prétraitement des données est très simple. Il vous suffit de cliquer sur cette option de bouton pour démarrer le traitement

    . Une fois le prétraitement terminé, vérifiez s'il existe un message d'erreur correspondant.
  • Dans des circonstances normales, une fois le prétraitement terminé, une très longue information de processus sera générée. Il suffit de la vérifier brièvement. Si aucune erreur n'est signalée, cela prouve que le prétraitement a réussi.
  • Ensuite, nous pouvons effacer ces informations de sortie, ce qui facilitera l'affichage des opérations ultérieures.

4.4. Définir les hyperparamètres d'entraînement

  • Les hyperparamètres ici peuvent être définis par vous-même, ou vous pouvez utiliser directement les paramètres par défaut.

4.4.1. Sélectionner la branche modèle

Il existe deux branches, l'une est la v1 et l'autre la vec768-layer12. À l'heure actuelle, la deuxième branche devrait être plus efficace, mais elle n'a pas été largement vérifiée. D’une manière générale, c’est plus métaphysique, vous pouvez donc en choisir n’importe lequel.

  • Si la mémoire GPU n'est pas particulièrement grande, réduisez la taille du lot. Pour la mémoire 6G, réglez-la sur 4.

  • Dans le même temps, afin de réduire l'utilisation de la mémoire, la demi-précision peut être utilisée pour l'entraînement.

  • Consultez la branche formation et la liste des intervenants

  • Si tous les paramètres sont définis correctement, cliquez dessus pour écrire le fichier de configuration afin que les options ci-dessus prennent effet.

4.5. Organiser une formation

  • Cliquez sur ce bouton de formation pour démarrer la formation. Une fenêtre de ligne de commande noire apparaîtra pendant le processus de formation.

  • Il y aura beaucoup d'informations ci-dessus, parmi lesquelles nous nous concentrerons principalement sur reference_loss. Plus la valeur est basse, mieux c'est. Si sa valeur peut être inférieure à 20, cela signifie que son modèle est assez bon.

  • A noter que cette formation ne sera pas automatiquement rechargée, vous devez juger si la formation répond aux exigences en fonction de la valeur de la perte.

4.5.1. Instructions sur la mémoire vidéo

Au cours de ce processus, si la mémoire vidéo est épuisée, définissez les tranches de cet ensemble de données pour qu'elles soient plus courtes. Régler chaque segment sur 5 secondes devrait suffire.

  • Si la mémoire vidéo n'est toujours pas suffisante, vous pouvez accéder au cloud pour louer une carte GPU.
    J'utilise ici une mémoire vidéo de 6 Go et elle occupe 3 Go de mémoire vidéo lorsque la taille du lot est de 1.
  • La taille du lot est de 2 et la mémoire vidéo occupée est de 4590.
  • La taille du lot est de 6, occupant 5623 mémoire vidéo
  • Une fois la formation terminée, le modèle sera enregistré dans le dossier des journaux

5. Raisonnement

5.1. Modèle de charge

  • Une fois la formation terminée, revenez à l'onglet d'inférence

5.1.1. Configuration du modèle de charge

Si la formation vient de se terminer, les chemins d'accès aux fichiers de modèle et de configuration sont corrects. S'il est transféré de l'extérieur, il doit alors être placé à l'emplacement correspondant.

  • Le chemin de ce fichier de configuration est pour le modèle G et le modèle de clustering Kmeans : logs\44k ; fichier de configuration : configs,
  • Si le chemin n'est pas celui-ci, il ne peut pas être lu.Sélection
    des paramètres du modèle
  • Ce modèle sélectionne les fichiers commençant par G, et le numéro qui suit correspond au nombre d'étapes de formation.
  • Après avoir cliqué, cliquez pour charger le modèle. Attendez un instant et le modèle sera chargé sur votre carte graphique.

5.2. Télécharger de l'audio pour inférence

  • Après avoir chargé le modèle, téléchargez un audio avec le son de fond supprimé, puis cliquez sur la conversion audio

  • Une fois le raisonnement terminé, cliquez ici pour écouter

  • Si vous êtes sûr que c'est l'effet souhaité, cliquez sur les trois points à droite de l'audio pour le télécharger.

  • Il convient de noter qu'il s'agit d'une voix humaine pure, sans accompagnement, qui peut ensuite être importée dans PR ou dans un logiciel de traitement similaire pour la synthèse sonore.

  • Ensuite, vous pouvez l'exporter ou le publier sur d'autres plateformes.

(img-L8NnbjCy-1683636718490)]

  • Il convient de noter qu'il s'agit d'une voix humaine pure sans accompagnement. Elle peut être importée dans PR ou dans un logiciel de traitement similaire pour la synthèse sonore [
    transfert d'image de lien externe...(img-4E0VZD7i-1683636718490)]
  • Ensuite, vous pouvez l'exporter ou le publier sur d'autres plateformes.

Guess you like

Origin blog.csdn.net/u014723479/article/details/130588649
Recommended