SeamlessStreaming在vrchat的同声传译

之前发了几个视频简单的演示了下同声传译的效果(显卡是特斯拉P40,效果比较差,功能是ok了)

Vrchat 尝试实时翻译和语音输出_哔哩哔哩_bilibili

写一下实现的思路和相关的配置(可以根据思路换其他的软件或者网站实现)

当然这一套也是可以用在其他软件,或者在vr中使用的

前置环境

         本地使用的显卡是特斯拉P40,

        Ubuntu 22.04.3 LTS,

        conda管理,

        python3.9.16,

        服务器上配置了代理

        因为seamlessstreaming用到了ws,一定要https才能远程访问,因此得用openssl自签证书,然后反向代理开出去。(seamless streaming的部署不在本次笔记中描述,这里主要描述实际应用的思路和方式)


关键软件

1.voice meeter(声音转换麦克风)

2.搜狗拼音输入法(没想到吧)将外语实时翻译成中文

3.seamless streaming,需要自己搭建,或者使用其他的实时tts服务(whisper desktop+网易易魔声或者bark等,但是我看基本没有持续的websocket转换,需要自己说话点一下麦克风),或者掏钱使用微软的itranslate那种(没研究过哈)

4.(可选)变声器,我用了需要sovits模型的voice-changer

5.voice changer
需要的话可以自己去b站里搜,很多教程的

输入(外语翻译中文)


输入转换流程
简单来说就是vrchat->voice meeter->搜狗拼音输入法 语音输入->txt文件

重点是voice meeter的配置和vrchat的配置

vrchat的声音配置

1.vrchat声音配置
这个声音配置是在系统->声音->音量合成器

2.voice meeter配置

如果要变声,使用photo版本(三个虚拟声卡),否则banana就行了,2个虚拟声卡

voice meeter的配置
主要看第一个就行了

勾上A2,表示声音要输出到实体声卡,就是右边A2配置的声卡,我这里选了耳机,因为我想听到原声

勾上B1,表示voice meeter将声音转换到 voice meeter VAIO OUTPUT 这个虚拟麦克风驱动,顺带一提B2对应虚拟麦克风AUX OUTPUT,B3对应VAIO3 OUTPUT


配置调试参考

        配置成功后,有音量波动就是有相应输出了

3.配置搜狗的输入


这样就把声音传给搜狗了(实际可以自己去试下,本来我录制了视频,但是嘴碎想想还是打打字算了)


输出(说中文转英文,基于seamless streaming)


实现流程


    关于seamless streaming的安装直接按照meta官方的readme来,然后只需要会一点点python就行

        地址是https://huggingface.co/spaces/facebook/seamless-streaming/tree/main
        项目自带readme文件

    顺带一提这个seamless streaming其实是可以把情绪也翻译过来的(但是要申请模型),替代方案bark也是可以的。

    然后是浏览器的声音配置(如果是使用vr的话,外部输入改成virtual desktop或者Oculus的那个headphone就行


再展示下vocie meeter的配置

voice meeter配置
到这里基本完事了,可以直接去vrchat里设置下麦克风

使用VAIO3
当然,像我这样的男人,会加一点one more thing,也就是变声器的配置

voice changer client的配置
当然,vrchat中的麦克风也要改

使用aux
效果自行体验哈!(就是声音有点痴呆)

猜你喜欢

转载自blog.csdn.net/ZanebonoAlter/article/details/135581486