语音合成论文优选：Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis - 代码天地

语音合成论文优选：Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis

其他 2021-03-25 21:46:03 阅读次数: 0

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis

该文章是上海交通大学在2021.02.01更新的文章，主要优化声学模型韵律，使语音更加自然，具体的文章链接

https://arxiv.org/pdf/2102.00851.pdf

1 背景

为了使语音合成系统合成更加自然的语音，很多人研究韵律模型。韵律模型主要分为：global prosody 和fine-grained prosody。其中global prosody是把参考的句子转成一个embedding，这也是目前很多系统采用的方案。fine-grained prosody主要是音素级别（PL:phone level)的韵律建模，常使用单高斯来建模。本文提到使用单高斯来建模不能很好表达音素级别之间的信息，因此使用GMM来对PL进行建模。

（对PL建模的文章也有这篇语音合成论文优选：个性化AdaSpeech: Adaptive Text to Speech for Custom Voice，最近我也在搞这些东西）

2 详细设计

本文设计的系统如图1所示，其使用MDN网络来预测GMM分布。图中prosody extractor是从音素对应的mel-spec来抽取prosody embedding，主要在训练阶段使用。在推理阶段则使用prosody prediector来预测GMM，并获取prosody embedding。

3 实验

本文先对比使用global和phone级别合成的语音效果，table1展示PL的语音更加接近原始音频。图2展示高斯数量对结果的影响，高斯数量越多越好。图3展示abtest，其中使用PL远远好于global级别。使用越多高斯远远好于单高斯。table2展示了MOS值，本文的MOS值最高，而且对推理速度影响很小。

4 总结

本文使用GMM对phone-level的韵律进行建模，从而很好的增加语音的自然度。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/114888405

语音合成论文优选：Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

语音合成论文优选：脑机接口的语音合成Advancing Speech Synthesis using EEG

语音合成论文优选：使用脑电图来进行语音合成speech synthesis using eeg

Neural Speech Synthesis with Transformer Network

语音合成论文优选：流式语音合成High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency

语音合成（speech synthesis)资料整理

Speech Synthesis(文字转语音)

Speech Synthesis

语音合成论文优选：自动打分系统MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

HTML5语音合成Speech Synthesis API简介

System.Speech.Synthesis 保存合成语音

语音合成（speech synthesis）方向八：韵律迁移和建模

语音合成论文优选：增量语音合成Alternate Endings Improving Prosody for ITTS

语音合成（speech synthesis）方向七：脑机接口之基于脑电图语音合成

【论文代码调测】A Convolutional Neural Network for Modelling Sentences

【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》

Speech Synthesis，语音合成详解——语音信号处理学习（八）

A Convolutional Neural Network for Modelling Sentences

《A Convolutional Neural Network for Modelling Sentences》

Density of Power Network

语音神经科学—02.Speech synthesis from neural decoding of spoken sentences

DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解

【论文学习笔记】《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》

（IS 19）Prosody Usage Optimization for Children Speech Recognition with Zero Resource Children Speech

Density of Power Network（ZOJ 3708）

语音合成论文优选STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive

语音合成论文优选: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

语音合成论文优选：Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)