【KI-Tool】-MockingBird-Speech Synthesis Voice Clone

Einführung

Spottdrossel :

Englische Übersetzung: Mockingbird, kann auch von „ To Kill a Mockingbird “ (englisch: To Kill a Mockingbird ) stammen, taiwanesische Übersetzung „ Meigang City Story “, chinesische Festlandübersetzung „ Kill a Mockingbird “, die wörtliche Übersetzung sollte „ To Kill a“ lauten „Mockingbird “ [ Anmerkung 1] ist ein 1960 veröffentlichter Roman des amerikanischen Schriftstellers Harper Lee , der den Pulitzer-Preis des Jahres gewann

Merkmale

  1. Es kann ein Austausch zwischen Text und Stimme realisiert werden
  2. Das Klonen von Stimmen kann durch Sprachinhalte realisiert werden

Installationsmethode

1. Installieren Sie die Python-Umgebung

Hinweis: Installieren Sie Python, um 3.8 oder höher auszuwählen

1. Betreten Sie die offizielle Website

https://www.python.org/downloads/

2. Laden Sie das Installationspaket herunter

Bild-20230615104111829

3. Installieren

Bild-20230615104543732

Bild-20230615104737525

Erklären Sie einige Einschränkungen Ihres Computers in Python, klicken Sie darauf und bestätigen Sie die Berechtigungen

Bild-20230615105207629

Wenn dies erscheint, ist die Installation abgeschlossen

Bild-20230615105324819

4. Testverifizierung

Bild-20230615105430840

ext

Wenn dies erscheint, bedeutet dies, dass die Installation abgeschlossen ist. Wenn Sie den Vorgang beenden möchten: Exit() oder Strg+Z drücken Sie die Eingabetaste

2. Installieren Sie PyTorch

Öffnen Sie den Link: https://pytorch.org/get-started/locally/ Rufen Sie die offizielle Website zum Herunterladen auf

Die Schnittstelle ist wie folgt:

1. Wenn Ihr Computer nicht über eine separate Grafikkarte oder eine AMD-Grafikkarte verfügt, wählen Sie Folgendes aus

Bild-20230625114500283

2. Wenn Ihr Computer über eine unabhängige Anzeige verfügt, sind die Optionen wie folgt

Bild-20230625114539692

3. Wählen Sie „Fertig stellen“, um den Installationsbefehl zu kopieren

Mein Computergehäuse ist eine RTX2060-Grafikkarte, daher habe ich mich für CUDA11.8 entschieden

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Einen neuen Ordner erstellen:

Bild-20230625114728526

Öffnen Sie dann das CMD-Fenster und führen Sie den obigen Code mit Administratorrechten aus:

Der Post-Paste-Vorgang erfolgt vollautomatisch und kann eine Weile dauern

Bild-20230625115009723

Der Effekt der Installation ist abgeschlossen:

Bild-20230625130459583

3. Laden Sie FFmpeg herunter

Laden Sie die offizielle Website herunter: http://ffmpeg.org/download.html#build-windows

1. Wählen Sie Fenster aus

Bild-20230625130634265

Wählen Sie die obere linke Ecke: gyan.dev

Bild-20230625130658585

Zur neuen Seite springen Wählen Sie:

Bild-20230625130740541

Warten Sie, bis der Download abgeschlossen ist. Nachdem der Download abgeschlossen ist, extrahieren Sie die Datei in einen anderen Laufwerksbuchstabenpfad als das Laufwerk C:

Bild-20230625131059968

Konfigurieren Sie als Nächstes den Bin-Pfad, auf den im Pfad der Umgebungsvariablen des Computersystems verwiesen wird:

Bild-20230625131153982

Öffnen Sie nach der Konfiguration das cmd-Fenster, geben Sie ffmpeg wie folgt ein. Die Ausgabe zeigt an, dass die Umgebungskonfiguration erfolgreich war:

Bild-20230625131234955

4. Laden Sie das MockingBird-Tool herunter

Laden Sie die Github-Adresse herunter: https://github.com/babysor/MockingBird

Hängen Sie die Git-Adresse an:

https://github.com/babysor/MockingBird.git

[email protected]:babysor/MockingBird.git

Öffnen Sie nach Abschluss der Dekomprimierung das Mockingbird-Verzeichnis und suchen Sie die Datei „requirements.txt“.

将:monotonic-align==0.0.3
改为
monotonic-align==1.0.0

1. Starten Sie den MockingBird-Installationsprozess

Öffnen Sie das cmd-Fenster im MockingBird-Verzeichnis und führen Sie den Befehl aus

Installieren Sie die verbleibenden erforderlichen Umgebungspakete unter dem Terminal:

python -m pip install --upgrade pip
pip install -r requirements.txt
pip install webrtcvad-wheels

2. Laden Sie das entsprechende Sprachtrainingsmodell herunter

Autor Download-Link Effektvorschau Information
Autor https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g Baidu-Disk-Link 4j5d 75.000 Schritte gemischtes Training mit 3 Open-Source-Datensätzen
Autor https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw Baidu-Disk-Link Extraktionscode: om7f 25.000 Schritte gemischtes Training mit 3 Open-Source-Datensätzen, wechseln Sie zur Verwendung zum Tag v0.0.1
@FawenYo https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing Baidu Disk Link Extraktionscode: 1024 Eingang Ausgang 200.000 Schritte Der taiwanesische Akzent muss auf Tag v0.0.1 umgestellt werden
@miven https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ Extraktionscode: 2021 150.000 Schritte Hinweis: Je nach Problem beheben und zum Tag v0.0.1 wechseln

Das heruntergeladene Modell wird im folgenden Verzeichnis gespeichert

Bild-20230625144513091

3. Starten Sie das Programm, nachdem Sie sichergestellt haben, dass das Modell richtig platziert ist

Bild-20230625144852136

Das Erscheinen dieser Zeile bedeutet, dass das Programm auf Port 8080 ausgeführt wurde und die folgende Schnittstelle angezeigt wird, wenn Sie über einen Browser darauf zugreifen:

Bild-20230625145011444

Geben Sie den Textinhalt auf der Steueroberfläche ein, klicken Sie auf „Generieren“ und auf der rechten Seite können wir den gewünschten Textinhalt entsprechend dem spezifischen Sprachmodell generieren

Bild-20230625145051935

Supongo que te gusta

Origin blog.csdn.net/gjb760662328/article/details/131377874
Recomendado
Clasificación