Ich habe bereits ein paar Videos gepostet, um einfach den Effekt des Simultandolmetschens zu demonstrieren (die Grafikkarte ist Tesla P40, der Effekt ist relativ schlecht, aber die Funktion ist ok)
Vrchat versucht Echtzeitübersetzung und Sprachausgabe_bilibili_bilibili
Notieren Sie die Implementierungsideen und die zugehörigen Konfigurationen (Sie können basierend auf den Ideen auch andere Software oder Websites verwenden).
Natürlich kann dieses Set auch in anderer Software oder in VR verwendet werden.
Vorumgebung
Die lokal verwendete Grafikkarte ist Tesla P40.
Ubuntu 22.04.3 LTS
Conda-Management,
Python3.9.16,
Auf dem Server ist ein Proxy konfiguriert
Da nahtloses Streaming ws verwendet, ist https für den Fernzugriff erforderlich. Sie müssen daher das selbstsignierte OpenSSL-Zertifikat verwenden und dann einen Reverse-Proxy öffnen. (Der Einsatz von Seamless Streaming wird in diesem Hinweis nicht beschrieben. Hier beschreiben wir hauptsächlich die Ideen und Methoden der praktischen Anwendung.)
kritische Software
1. Voice Meter (Sprachkonvertierungsmikrofon)
2. Die Sogou-Pinyin-Eingabemethode (das habe ich nicht erwartet) übersetzt Fremdsprachen in Echtzeit ins Chinesische
3. Nahtloses Streaming, Sie müssen es selbst erstellen oder andere Echtzeit-TTS-Dienste verwenden (Whisper Desktop + NetEase Monster oder Bark usw.), aber ich denke, es gibt im Grunde keine kontinuierliche WebSocket-Konvertierung, Sie müssen sprechen und darauf klicken Mikrofon selbst) oder zahlen Sie für die Nutzung von Microsoft. Die Art von itranslate (ich habe es noch nicht studiert)
4. (Optional) Sprachwechsler, ich habe einen Sprachwechsler verwendet, der ein Sovits-Modell erfordert
5.
Wenn Sie einen Sprachwechsler benötigen, können Sie auf der Website b danach suchen. Es gibt viele Tutorials.
Eingabe (Fremdsprachenübersetzung Chinesisch)
Der Eingabekonvertierungsprozess
ist einfach vrchat->voice meeter->Sogou Pinyin-Eingabemethode Spracheingabe->txt-Datei
Der Schwerpunkt liegt auf der Konfiguration von Voice Meeter und Vrchat
Vrchat-Soundkonfiguration
1. VRChat-Soundkonfiguration
Diese Soundkonfiguration befindet sich unter System->Sound->Lautstärke-Synthesizer
2. Konfiguration des Sprachmeßgeräts
Wenn Sie Ihre Stimme ändern möchten, verwenden Sie die Fotoversion (drei virtuelle Soundkarten), ansonsten reicht Banana aus, 2 virtuelle Soundkarten
Für die Konfiguration von Voice Meeter
schauen Sie sich einfach das erste an.
Das Ankreuzen von A2 zeigt an, dass der Ton an die physische Soundkarte ausgegeben werden soll, also die Soundkarte, die rechts mit A2 konfiguriert ist. Ich habe mich hier für Kopfhörer entschieden, weil ich den Originalton hören möchte.
Wenn Sie B1 markieren, bedeutet dies, dass das Sprachmeßgerät den Ton an den VAIO OUTPUT des Sprachmeeters, den virtuellen Mikrofontreiber, umwandelt. B2 entspricht übrigens dem virtuellen Mikrofon-AUX-AUSGANG und B3 dem VAIO3-AUSGANG.
Referenz zum Konfigurations-Debugging
Nach erfolgreicher Konfiguration erfolgt bei schwankender Lautstärke eine entsprechende Ausgabe.
3. Konfigurieren Sie Sogous Eingabe
Auf diese Weise wird der Ton an Sogou übertragen (eigentlich können Sie es selbst ausprobieren. Ich habe das Video ursprünglich aufgenommen, aber nachdem ich darüber nachgedacht hatte, habe ich beschlossen, es abzutippen.)
Ausgabe (Chinesisch in Englisch sprechen, basierend auf nahtlosem Streaming)
Umsetzungsprozess
Befolgen Sie bezüglich der Installation von Seamless Streaming einfach die offizielle Readme-Datei von Meta, dann müssen Sie nur ein wenig Python beherrschen.
Die Adresse lautet https://huggingface.co/spaces/facebook/seamless-streaming/tree/main
. Das Projekt wird mit einer Readme-Datei geliefert.
Übrigens kann dieses nahtlose Streaming tatsächlich Emotionen übersetzen (man muss sich aber als Model bewerben), und die Alternative Bellen ist auch verfügbar.
Dann gibt es noch die Soundkonfiguration des Browsers ( wenn Sie VR verwenden, ändern Sie einfach den externen Eingang auf den virtuellen Desktop oder Oculus-Kopfhörer ) .
Zeigen Sie die Konfiguration des Vocie-Meeters erneut an
Die Konfiguration des Sprachmeeters
ist hier im Grunde abgeschlossen. Sie können direkt zum Einstellen des Mikrofons in vrchat gehen.
Natürlich wird ein Mann wie ich bei der Verwendung von VAIO3
noch eine Sache hinzufügen, nämlich die Konfiguration des Sprachwechslers.
Konfiguration des Voice-Changer-Clients
Natürlich muss auch das Mikrofon in vrchat geändert werden
Nutzen Sie den Aux-
Effekt, um ihn selbst zu erleben! (Es ist nur so, dass die Stimme etwas verrückt ist)