Interprétation simultanée SeamlessStreaming dans vrchat

J'ai déjà posté quelques vidéos pour simplement démontrer l'effet de l'interprétation simultanée (la carte graphique est une Tesla P40, l'effet est relativement médiocre, mais la fonction est ok)

Vrchat essaie la traduction et la sortie vocale en temps réel_bilibili_bilibili

Notez les idées de mise en œuvre et les configurations associées (vous pouvez utiliser d'autres logiciels ou sites Web basés sur les idées)

Bien entendu, cet ensemble peut également être utilisé dans d’autres logiciels ou en VR.

Pré-environnement

         La carte graphique utilisée localement est la Tesla P40.

        Ubuntu 22.04.3 LTS

        gestion des condas,

        python3.9.16,

        Un proxy est configuré sur le serveur

        Étant donné que le streaming transparent utilise ws, https est requis pour l'accès à distance, vous devez donc utiliser le certificat auto-signé openssl, puis ouvrir un proxy inverse. (Le déploiement du streaming transparent n'est pas décrit dans cette note. Nous décrivons ici principalement les idées et les méthodes d'application pratique)


logiciel critique

1.voice meeter (microphone de conversion vocale)

2. La méthode de saisie Sogou Pinyin (je ne m'y attendais pas) traduit les langues étrangères en chinois en temps réel

3. Streaming transparent, vous devez le créer vous-même ou utiliser d'autres services TTS en temps réel (Whisper Desktop + NetEase Monster ou Bark, etc., mais je pense qu'il n'y a fondamentalement pas de conversion continue de Websocket, vous devez parler et cliquer sur le microphone vous-même), ou payer pour utiliser Microsoft. Le genre de traduction (je ne l'ai pas encore étudié)

4. (Facultatif) Changeur de voix, j'ai utilisé un changeur de voix qui nécessite le modèle Sovits

5.
Si vous avez besoin d'un changeur de voix, vous pouvez le rechercher sur le site B. Il existe de nombreux tutoriels.

Entrée (traduction en langue étrangère chinois)


Le processus de conversion d'entrée
est simplement vrchat->voice meeter->Sogou Pinyin méthode de saisie saisie vocale->fichier txt

L'accent est mis sur la configuration de Voice Meeter et de VRChat.

configuration du son vrchat

Configuration sonore 1.vrchat
Cette configuration sonore se trouve dans Système->Son->Volume Synthesizer

2. configuration du répondeur vocal

Si vous souhaitez changer de voix, utilisez la version photo (trois cartes son virtuelles), sinon banane fera l'affaire, 2 cartes son virtuelles

Pour la configuration du Voice Meeter,
il suffit de regarder le premier.

Cocher A2 indique que le son doit être émis vers la carte son physique, qui est la carte son configurée avec A2 à droite. J'ai choisi un casque ici parce que je veux entendre le son original.

Cocher B1 signifie que le Voice Meeter convertit le son en Voice Meeter VAIO OUTPUT, le pilote du microphone virtuel. À propos, B2 correspond à la sortie AUX du microphone virtuel et B3 correspond à la sortie VAIO3.


Référence de débogage de configuration

        Une fois la configuration réussie, si le volume fluctue, il y aura une sortie correspondante.

3. Configurez l'entrée de Sogou


De cette façon, le son est transmis à Sogou (en fait, vous pouvez l'essayer vous-même. J'ai initialement enregistré la vidéo, mais après y avoir réfléchi, j'ai décidé de la taper)


Sortie (parler du chinois vers l'anglais, basé sur un streaming transparent)


Processus de mise en œuvre


    Concernant l'installation du streaming transparent, suivez simplement le readme officiel de la méta, et il vous suffira alors de connaître un peu python.

        L'adresse est https://huggingface.co/spaces/facebook/seamless-streaming/tree/main
        Le projet est livré avec un fichier Lisez-moi.

    À propos, ce streaming transparent peut réellement traduire des émotions (mais vous devez demander un modèle), et l'écorce alternative est également disponible.

    Ensuite il y a la configuration sonore du navigateur ( si vous utilisez VR, changez simplement l'entrée externe vers le bureau virtuel ou le casque Oculus )


Afficher à nouveau la configuration de Vocie Meeter

La configuration du répondeur vocal
est pratiquement terminée ici. Vous pouvez aller directement régler le microphone dans vrchat.

Bien sûr, lorsqu'il utilise VAIO3
, un homme comme moi ajoutera une chose supplémentaire, à savoir la configuration du changeur de voix.

Configuration du client changeur de voix
Bien entendu, le microphone dans vrchat doit également être modifié

Utilisez l'
effet auxiliaire pour en faire l'expérience vous-même ! (C'est juste que la voix est un peu démente)

Je suppose que tu aimes

Origine blog.csdn.net/ZanebonoAlter/article/details/135581486
conseillé
Classement