【KI-Tool】-MockingBird-Speech Synthesis Voice Clone

Einführung

Spottdrossel :

Englische Übersetzung: Mockingbird, kann auch von „ To Kill a Mockingbird “ (englisch: To Kill a Mockingbird ) stammen, taiwanesische Übersetzung „ Meigang City Story “, chinesische Festlandübersetzung „ Kill a Mockingbird “, die wörtliche Übersetzung sollte „ To Kill a“ lauten „Mockingbird “ [ Anmerkung 1] ist ein 1960 veröffentlichter Roman des amerikanischen Schriftstellers Harper Lee , der den Pulitzer-Preis des Jahres gewann

Merkmale

Es kann ein Austausch zwischen Text und Stimme realisiert werden
Das Klonen von Stimmen kann durch Sprachinhalte realisiert werden

Installationsmethode

1. Installieren Sie die Python-Umgebung

Hinweis: Installieren Sie Python, um 3.8 oder höher auszuwählen

1. Betreten Sie die offizielle Website

https://www.python.org/downloads/

2. Laden Sie das Installationspaket herunter

Bild-20230615104111829

3. Installieren

Bild-20230615104543732

Bild-20230615104737525

Erklären Sie einige Einschränkungen Ihres Computers in Python, klicken Sie darauf und bestätigen Sie die Berechtigungen

Bild-20230615105207629

Wenn dies erscheint, ist die Installation abgeschlossen

Bild-20230615105324819

4. Testverifizierung

Bild-20230615105430840

ext

Wenn dies erscheint, bedeutet dies, dass die Installation abgeschlossen ist. Wenn Sie den Vorgang beenden möchten: Exit() oder Strg+Z drücken Sie die Eingabetaste

2. Installieren Sie PyTorch

Öffnen Sie den Link: https://pytorch.org/get-started/locally/ Rufen Sie die offizielle Website zum Herunterladen auf

Die Schnittstelle ist wie folgt:

1. Wenn Ihr Computer nicht über eine separate Grafikkarte oder eine AMD-Grafikkarte verfügt, wählen Sie Folgendes aus

Bild-20230625114500283

2. Wenn Ihr Computer über eine unabhängige Anzeige verfügt, sind die Optionen wie folgt

Bild-20230625114539692

3. Wählen Sie „Fertig stellen“, um den Installationsbefehl zu kopieren

Mein Computergehäuse ist eine RTX2060-Grafikkarte, daher habe ich mich für CUDA11.8 entschieden

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Einen neuen Ordner erstellen:

Bild-20230625114728526

Öffnen Sie dann das CMD-Fenster und führen Sie den obigen Code mit Administratorrechten aus:

Der Post-Paste-Vorgang erfolgt vollautomatisch und kann eine Weile dauern

Bild-20230625115009723

Der Effekt der Installation ist abgeschlossen:

Bild-20230625130459583

3. Laden Sie FFmpeg herunter

Laden Sie die offizielle Website herunter: http://ffmpeg.org/download.html#build-windows

1. Wählen Sie Fenster aus

Bild-20230625130634265

Wählen Sie die obere linke Ecke: gyan.dev

Bild-20230625130658585

Zur neuen Seite springen Wählen Sie:

Bild-20230625130740541

Warten Sie, bis der Download abgeschlossen ist. Nachdem der Download abgeschlossen ist, extrahieren Sie die Datei in einen anderen Laufwerksbuchstabenpfad als das Laufwerk C:

Bild-20230625131059968

Konfigurieren Sie als Nächstes den Bin-Pfad, auf den im Pfad der Umgebungsvariablen des Computersystems verwiesen wird:

Bild-20230625131153982

Öffnen Sie nach der Konfiguration das cmd-Fenster, geben Sie ffmpeg wie folgt ein. Die Ausgabe zeigt an, dass die Umgebungskonfiguration erfolgreich war:

Bild-20230625131234955

4. Laden Sie das MockingBird-Tool herunter

Laden Sie die Github-Adresse herunter: https://github.com/babysor/MockingBird

Hängen Sie die Git-Adresse an:

https://github.com/babysor/MockingBird.git

[email protected]:babysor/MockingBird.git

Öffnen Sie nach Abschluss der Dekomprimierung das Mockingbird-Verzeichnis und suchen Sie die Datei „requirements.txt“.

将：monotonic-align==0.0.3
改为
monotonic-align==1.0.0

1. Starten Sie den MockingBird-Installationsprozess

Öffnen Sie das cmd-Fenster im MockingBird-Verzeichnis und führen Sie den Befehl aus

Installieren Sie die verbleibenden erforderlichen Umgebungspakete unter dem Terminal:

python -m pip install --upgrade pip

pip install -r requirements.txt

pip install webrtcvad-wheels

2. Laden Sie das entsprechende Sprachtrainingsmodell herunter

Autor	Download-Link	Effektvorschau	Information
Autor	https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g Baidu-Disk-Link 4j5d		75.000 Schritte gemischtes Training mit 3 Open-Source-Datensätzen
Autor	https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw Baidu-Disk-Link Extraktionscode: om7f		25.000 Schritte gemischtes Training mit 3 Open-Source-Datensätzen, wechseln Sie zur Verwendung zum Tag v0.0.1
@FawenYo	https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing Baidu Disk Link Extraktionscode: 1024	Eingang Ausgang	200.000 Schritte Der taiwanesische Akzent muss auf Tag v0.0.1 umgestellt werden
@miven	https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ Extraktionscode: 2021		150.000 Schritte Hinweis: Je nach Problem beheben und zum Tag v0.0.1 wechseln

Das heruntergeladene Modell wird im folgenden Verzeichnis gespeichert

Bild-20230625144513091

3. Starten Sie das Programm, nachdem Sie sichergestellt haben, dass das Modell richtig platziert ist

Bild-20230625144852136

Das Erscheinen dieser Zeile bedeutet, dass das Programm auf Port 8080 ausgeführt wurde und die folgende Schnittstelle angezeigt wird, wenn Sie über einen Browser darauf zugreifen:

Bild-20230625145011444

Geben Sie den Textinhalt auf der Steueroberfläche ein, klicken Sie auf „Generieren“ und auf der rechten Seite können wir den gewünschten Textinhalt entsprechend dem spezifischen Sprachmodell generieren

Bild-20230625145051935