SeamlessStreaming-Simultandolmetschen in Vrchat

Ich habe bereits ein paar Videos gepostet, um einfach den Effekt des Simultandolmetschens zu demonstrieren (die Grafikkarte ist Tesla P40, der Effekt ist relativ schlecht, aber die Funktion ist ok)

Vrchat versucht Echtzeitübersetzung und Sprachausgabe_bilibili_bilibili

Notieren Sie die Implementierungsideen und die zugehörigen Konfigurationen (Sie können basierend auf den Ideen auch andere Software oder Websites verwenden).

Natürlich kann dieses Set auch in anderer Software oder in VR verwendet werden.

Vorumgebung

Die lokal verwendete Grafikkarte ist Tesla P40.

Ubuntu 22.04.3 LTS

Conda-Management,

Python3.9.16,

Auf dem Server ist ein Proxy konfiguriert

Da nahtloses Streaming ws verwendet, ist https für den Fernzugriff erforderlich. Sie müssen daher das selbstsignierte OpenSSL-Zertifikat verwenden und dann einen Reverse-Proxy öffnen. (Der Einsatz von Seamless Streaming wird in diesem Hinweis nicht beschrieben. Hier beschreiben wir hauptsächlich die Ideen und Methoden der praktischen Anwendung.)

kritische Software

1. Voice Meter (Sprachkonvertierungsmikrofon)

2. Die Sogou-Pinyin-Eingabemethode (das habe ich nicht erwartet) übersetzt Fremdsprachen in Echtzeit ins Chinesische

3. Nahtloses Streaming, Sie müssen es selbst erstellen oder andere Echtzeit-TTS-Dienste verwenden (Whisper Desktop + NetEase Monster oder Bark usw.), aber ich denke, es gibt im Grunde keine kontinuierliche WebSocket-Konvertierung, Sie müssen sprechen und darauf klicken Mikrofon selbst) oder zahlen Sie für die Nutzung von Microsoft. Die Art von itranslate (ich habe es noch nicht studiert)

4. (Optional) Sprachwechsler, ich habe einen Sprachwechsler verwendet, der ein Sovits-Modell erfordert

5.
Wenn Sie einen Sprachwechsler benötigen, können Sie auf der Website b danach suchen. Es gibt viele Tutorials.

Eingabe (Fremdsprachenübersetzung Chinesisch)

Der Eingabekonvertierungsprozess
ist einfach vrchat->voice meeter->Sogou Pinyin-Eingabemethode Spracheingabe->txt-Datei

Der Schwerpunkt liegt auf der Konfiguration von Voice Meeter und Vrchat

Vrchat-Soundkonfiguration

1. VRChat-Soundkonfiguration
Diese Soundkonfiguration befindet sich unter System->Sound->Lautstärke-Synthesizer

2. Konfiguration des Sprachmeßgeräts

Wenn Sie Ihre Stimme ändern möchten, verwenden Sie die Fotoversion (drei virtuelle Soundkarten), ansonsten reicht Banana aus, 2 virtuelle Soundkarten

Für die Konfiguration von Voice Meeter
schauen Sie sich einfach das erste an.

Das Ankreuzen von A2 zeigt an, dass der Ton an die physische Soundkarte ausgegeben werden soll, also die Soundkarte, die rechts mit A2 konfiguriert ist. Ich habe mich hier für Kopfhörer entschieden, weil ich den Originalton hören möchte.

Wenn Sie B1 markieren, bedeutet dies, dass das Sprachmeßgerät den Ton an den VAIO OUTPUT des Sprachmeeters, den virtuellen Mikrofontreiber, umwandelt. B2 entspricht übrigens dem virtuellen Mikrofon-AUX-AUSGANG und B3 dem VAIO3-AUSGANG.

Referenz zum Konfigurations-Debugging

Nach erfolgreicher Konfiguration erfolgt bei schwankender Lautstärke eine entsprechende Ausgabe.

3. Konfigurieren Sie Sogous Eingabe

Auf diese Weise wird der Ton an Sogou übertragen (eigentlich können Sie es selbst ausprobieren. Ich habe das Video ursprünglich aufgenommen, aber nachdem ich darüber nachgedacht hatte, habe ich beschlossen, es abzutippen.)

Ausgabe (Chinesisch in Englisch sprechen, basierend auf nahtlosem Streaming)

Umsetzungsprozess

Befolgen Sie bezüglich der Installation von Seamless Streaming einfach die offizielle Readme-Datei von Meta, dann müssen Sie nur ein wenig Python beherrschen.

Die Adresse lautet https://huggingface.co/spaces/facebook/seamless-streaming/tree/main
. Das Projekt wird mit einer Readme-Datei geliefert.

Übrigens kann dieses nahtlose Streaming tatsächlich Emotionen übersetzen (man muss sich aber als Model bewerben), und die Alternative Bellen ist auch verfügbar.

Dann gibt es noch die Soundkonfiguration des Browsers ( wenn Sie VR verwenden, ändern Sie einfach den externen Eingang auf den virtuellen Desktop oder Oculus-Kopfhörer ) .

Zeigen Sie die Konfiguration des Vocie-Meeters erneut an

Die Konfiguration des Sprachmeeters
ist hier im Grunde abgeschlossen. Sie können direkt zum Einstellen des Mikrofons in vrchat gehen.

Natürlich wird ein Mann wie ich bei der Verwendung von VAIO3
noch eine Sache hinzufügen, nämlich die Konfiguration des Sprachwechslers.

Konfiguration des Voice-Changer-Clients
Natürlich muss auch das Mikrofon in vrchat geändert werden

Nutzen Sie den Aux-
Effekt, um ihn selbst zu erleben! (Es ist nur so, dass die Stimme etwas verrückt ist)