HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis - 代码天地

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

其他 2021-12-14 18:16:09 阅读次数: 0

会议：2020 NIPS
单位：韩国KAKAO
作者：Jungil Kong， Jaehyeon Kim
文章主页
 开源代码

文章目录

abstract

motivation:在推理时间 & 生成高保真音质方面均作出改进

观点：modeling periodic patterns of an audio is crucial
结果：22.05k的单人音频生成质量和录制语音接近；优点全CNN网络，前向推理速度非常快

HiFi-GAN

包括一个生成器和两个判别器（multi-scale & multi-period)，

生成器结构

在这里插入图片描述

MSD: multi-scale discriminator

在这里插入图片描述

三个子判别器：对连续的语音采样点进行建模，分别建模原始语音，✖️2 average-pooled audio，✖️4 average-pooled audio

MPD：multi-period discriminator

motivation：语音由不同的周期信号组成，重建语音数据需要对不同的周期模式进行建模。
对不连续的采样点进行建模，设置素数【2，3，5，7，11】为不同的period，按照period将音频采样点reshape为二维信号，然后用卷积单独处理周期重采样后的信号。
如上图所示：可以看成大周期sin signal+小周期sin signal，不同的采样间隔建模到不同周期的信号。

目标函数

在这里插入图片描述

Feature Matching Loss：衡量判别器对于真实样本和生成样本预测的结果偏差

experiments

对比1:LJSpeech的效果，baseline选择官方开源的WaveNet，WaveGlow，MelGAN
对于unseen speaker的泛化效果：VCTK数据集，9个人作为unseen speaker，剩下的用于训练WaveNet，WaveGlow，MelGAN， hifigan
为了对比合成质量和合成速度，分别设置三组参数V1，V2，V3，参数量依次越来越小；

ablation study

在这里插入图片描述

MPD模块对结果的改善最显著

unseen speaker的泛化

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/121930351

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

(翻译)Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks

Speech Bandwidth Extension Using Generative Adversarial Networks

Understanding Generative Adversarial Networks (GAN)

bigGAN: LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

Large scale GAN training for high fidelity natural image synthesis解读

LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

[Style Transfer]——Blood Vessel Geometry Synthesis using Generative Adversarial Networks

Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis

【论文学习笔记】《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》

DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

GAN开山之作: Generative Adversarial Networks

Generative Adversarial Networks

Triangle Generative Adversarial Networks

UNROLLED GENERATIVE ADVERSARIAL NETWORKS

[论文笔记] LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

【paddlepaddle论文复现】Large scale GAN training for high fidelity natural image synthesis论文学习

论文笔记：Large Scale GAN Training for High Fidelity Natural Image Synthesis

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 阅读及实现

《StackGAN:Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》探析

StackGAN（2017）: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

[TMI2019-10]Image Synthesis in Multi-Contrast MRI With Conditional Generative Adversarial Networks

生成对抗网络（Generative Adversarial Networks，GAN）初探

GAN01: Introductory guide to Generative Adversarial Networks (GANs) and their promise!

生成对抗网络（GAN, Generative Adversarial Networks)快速入门

生成对抗网络--Generative Adversarial Networks (GAN)

Least Squares Generative Adversarial Networks（小白学GAN 十一）

Energy-Based Generative Adversarial Networks（小白学GAN 十）

Coupled Generative Adversarial Networks（小白学GAN 九）

MSG-GAN Multi-Scale Gradients for Generative Adversarial Networks

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)