中文语音合成开源模型总结 - 代码天地

中文语音合成开源模型总结

企业开发 2023-08-02 01:15:54 阅读次数: 0

近段时间一直忙于语音开源克隆模型的尝试，现总结如下:

MockingBird:特点是克隆的声音音色比较像，缺点也很明显，速度慢，5秒左右，可以优化到0.4-1.2秒左右，MOS值偏低；

Vits：特点是目前公开MOS值最接近真实值的，速度比较快，0.08-0.4秒左右；

ms_istft_vits:特点是性能是vits的4倍左右，速度更快，0.06-0.1秒左右，MOS值接近真实值。

这些模型代码或多或少都有些BUG，需要自己去修复，另外vits类的多人训练模型代码需要自己修改，可以使用拼音，也可以使用音素，使用音素加上停顿效果更佳。

vits模型多人训练以AISHELL-3 多人（174人，8万多条语音）中文数据集8K采样率，batch_size=16，需要训练到500K步效果比较好。T4 GPU 16G大概需要训练10天左右。AISHELL单人1万条女声44K采样率，模型大概需要9天左右，240K步效果比较好，可以克隆荷塘月色。

多音字方面：需要维护自己的多音字字典。

加速方面：量化、转onnx或script模型失败，代码不支持，其中转traced_model成功，但性能很低，短句需要10秒，放弃。

论文MOS值对比图：

MOS值及单次推理性能（单位：秒）对比：

猜你喜欢

转载自blog.csdn.net/wxl781227/article/details/127996110

中文语音合成开源模型总结

中文语音合成代码

开源(离线)中文文本转语音TTS(语音合成)工具整理

神经网络语音合成模型介绍-ClariNet及总结

语音识别/合成开源项目

语音合成模型小抄(1)

端到端的TTS深度学习模型tacotron(中文语音合成)

基于Tacotron汉语语音合成的开源实践

语音合成1700多个中文音频

神经网络语音合成模型介绍

基于Tacotron模型的语音合成实践

语音合成部分模型--学习笔记

基于语言模型的语音识别与语音合成技术

语音合成

【学习笔记】开源中文对话预训练模型调研总结

####好好好好####基于Tacotron汉语语音合成的开源实践

什么？语音合成开源代码不会跑，Follow me！

一个非常好用的离线语音报读，语音叫号，语音合成的开源框架

SYN6288中文语音合成程序

中文语音合成软件Ekho(余音)的使用教程

语音识别与语音合成

语音识别语音合成

神经网络语音合成模型介绍-Wavenet

神经网络语音合成模型介绍-Parallel Wavenet

神经网络语音合成模型介绍-Tacotron 2

神经网络语音合成模型介绍-DeepVoice3

神经网络语音合成模型介绍-Tacotron

语音识别|中文语音识别开源数据集整理

OpenAI 开源语音识别模型 Whisper

Whisper OpenAI开源语音识别模型

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)