一、摘要

VITS理论基础：https://github.com/jaywalnut310/vits

VITS工程实现：GitHub - rhasspy/piper: A fast, local neural text to speech system

VITS一键克隆，中英日三语，Plachtaa/VITS-fast-fine-tuning

VITS中文模型，优质，分块流式推理，PlayVoice/vits_chinese

VITS歌声转换，多人模型，PlayVoice/so-vits-svc-5.0

二、起源

2.1 VITS - 官方版本v1.0

2021 年 6 月 11 日 VITS 论文和代码发布：

论文：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

代码：https://github.com/jaywalnut310/vits

机构：韩国科学院

会议：ICML 2021

作者其他论文：HiFiGAN、GlowTTS

2.3 PITS - 官方版本v2.0

2023年02月27日端到端音调可控TTS的无基频变音调推理

论文：PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS

机构：VITS团队

代码：https://github.com/anonymous-pits/pits

目的：PITS在VITS的基础上，结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。

三、官方评测

2021 年 10 月 15 日 VITS 评估论文发布：

论文：ESPnet2-TTS Extending the Edge of TTS Research

代码：https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits

机构：开源机构 ESPnet、卡梅隆大学、东京大学等

目的：对先进的语音合成系统进行评估，尤其是 VITS；ESPnet 提供的 152 个预训练模型（ASR+TTS）中有 48 为 VITS 语音合成模型。

四、优秀延伸

4.1 YourTTS

2021 年 12 月 4 日 VITS 相关论文：

论文：YourTTS：Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

代码：https://edresson.github.io/YourTTS/

机构：开源机构 coqui-ai/TTS

目的：基于 VITS 实现跨语言语音合成和声音转换

4.2 VoiceMe 典型应用场景

2022年3月30日 VoiceMe：TTS中的个性化语音生成

论文：VoiceMe: Personalized voice generation in TTS

代码：https://github.com/polvanrijn/VoiceMe

机构：University of Cambridge etc

目的：使用来自最先进的说话人验证模型（SpeakerNet）的说话人嵌入来调节TTS模型。展示了用户可以创建与人脸、艺术肖像和卡通照片非常匹配的声音；使用wav2lip合成口型。

五、模型优化

5.1 模型加速

2022年3月30日 Nix-TTS：VITS模型的加速

论文：Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation

代码：https://github.com/choiHkk/nix-tts

演示：https://github.com/rendchevi/nix-tts

2022年10月31日 VITS加速

论文：Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform

代码：https://github.com/MasayaKawamura/MB-iSTFT-VITS

机构： University of Tokyo, Japan,LINE Corp., Japan.

目的：比VITS快4.1倍，音质无影响；1）用简单的iSTFT部分地替换计算上最昂贵的卷积（2倍加速），2）PQMF的多频带生成来生成波形。

5.2 无标注训练

2022年10月6日无标注训练

论文：Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus

代码：https://github.com/hcy71o/TransferTTS

机构：三星等

目的：使用大规模无标注语料训练TTS；使用wav2vec2.0;

5.3 C++支持

2023年1月 VITS onnx推理代码

代码：https://github.com/rhasspy/piper

机构：Rhasspy

目的：可导出onnx模型的VITS训练代码；C++推理代码；提供安装包，和预训练模型；支持平台 desktop Linux && Raspberry Pi 4；

六、变声器

6.1 FreeVC

2022年10月28日基于VITS架构的变声

论文：FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion

代码：https://github.com/olawod/freevc

目的：本文采用了端到端的VITS框架来实现高质量的波形重构，并提出了无需文本标注的干净内容信息提取策略。通过在WavLM特征中引入信息瓶颈，对内容信息进行分解，并提出基于谱图大小调整的数据增强方法，以提高提取内容信息的纯度。

6.2 QuickVC

2023年2月 VITS 变声 QuickVC

论文：QuickVC: Many-to-any Voice Conversion Using Inverse Short-time Fourier Transform for Faster Conversion

代码：https://github.com/quickvc/QuickVoice-Conversion

目的：SoftVC + VITS + iSTFT

6.3 PITS - 官方版本v2.0

2023年02月27日端到端音调可控TTS的无基频变音调推理

论文：PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS

机构：VITS团队

代码：https://github.com/anonymous-pits/pits

目的：PITS在VITS的基础上，结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。

七、语音克隆

7.1 HierSpeech

2023年1月语音克隆

论文：HierSpeech: Bridging the Gap between Text andSpeech by Hierarchical Variational Inference usingSelf-supervised Representations for Speech Synthesis

机构：Korea University

代码：https://github.com/CODEJIN/HierSpeech

目的：利用自我监督的语音表示作为额外的语言表示，以弥合文本和语音之间的信息差距。HierSpeech达到了+0.303 比较平均意见得分，音素错误率从9.16%降低到5.78%。可以利用自我监督的语音来适应新的说话人而没有标注。

八、Zero-short 声音克隆

8.1 SNAC-非官方实现

2022年12月01日 zero-short语音克隆

论文：SNAC : Speaker-normalized Affine Coupling Layer in Flow-based Architecture for Zero-Shot Multi-Speaker Text-to-Speech

机构：Seoul National University & Samsung

代码：https://github.com/hcy71o/SNAC

主页：https://byoungjinchoi.github.io/snac/

目的：基于微软的说话人自适应器；在VITS的Flow层中嵌入adapter，实现zero-short语音克隆；我们通过引入一个说话人归一化仿射耦合（SNAC）层来改进先前的说话人条件化方法，该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。

8.2 NaturalSpeech 2

2023年4月01日 zero-short语音克隆

论文：NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

机构：微软

代码：https://github.com/lucidrains/naturalspeech2-pytorch

代码：https://github.com/rishikksh20/NaturalSpeech2

代码：GitHub - CODEJIN/NaturalSpeech2

代码：https://github.com/adelacvg/NS2VC

目的：捕获人类语音的多样性，诸如说话者身份、韵律和风格，如唱歌；利用神经音频编解码器与残余向量量化器得到量化的潜向量，并使用扩散模型以文本输入为条件来生成这些潜向量；设计了一个语音提示机制，以促进扩散模型学习上下文和时长与音高预测；仅使用语音提示进行新颖的零拍歌唱合成；

8.3 Automatic

2023年5月 zero-shot vits

论文：Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis

代码：https://github.com/cnaigithub/Auto_Tuning_Zeroshot_TTS_and_VC

目的：设计一个zero-shot vits框架；vits loss比较多，loss的平衡对质量影响大，所以提出自动均衡loss的方案。

VITS开源项目汇总（更新至2023-06-01）