语音合成论文优选：Expressive Neural Voice Cloning - 代码天地

语音合成论文优选：Expressive Neural Voice Cloning

其他 2021-03-25 21:48:30 阅读次数: 0

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Expressive Neural Voice Cloning

本文是加州大学圣地亚哥分校在2021.01.30更新的文章，主要工作做语音复刻和个性化，但本文主要添加情感的迁移，具体的文章链接

https://arxiv.org/pdf/2102.00151.pdf

（文章看着挺长，洋洋洒洒12页，但其实很简单）

1 研究背景

现在的语音合成系统可以通过使用GST来进行情感控制，但原始的tacotron2+GST来进行一句话复刻或者个性化定制的效果并不理想，因此本文的目标是在一句话复刻系统上进行风格的迁移控制。

2 详细设计

本文的系统架构如下图所示，系统的输入条件包括四个部分：text, speaker embedding, GST和Pitch contour，其中speaker encoder是用来学习说话人特征信息，encoder是进行语言特征进行编码表征，GST是学习音频的隐含特征，Pitch Contour是学习音频的基频轮廓。本文主要使用GST和Pitch Contour进行情感的迁移学习。

3 实验

本文实验先验证合成音频与原始音频相似性，其结果如图2所示：使用本文提出的方案比原始的taoctron2+GST效果较好，使用少量训练语料进行自适应比zero-shot较好，自适应方案更新整个模型比只更新decoder效果较好。table1和table2对比风格迁移的一些准则和MOS值，结果和以上一致。

4 总结

本文主要在一句话或者少数量数据的语音合成系统上进行情感的迁移优化，使系统不仅仅复刻音色，也可以进行风格迁移。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/113997023

语音合成论文优选：Expressive Neural Voice Cloning

语音合成论文优选：ICASSP 2021 M2VoC文章 CUHK-EE voice cloning system for ICASSP 2021 M2VoC challenge

深度学习神经网络学习笔记-多模态方向-10-Neural Voice Cloning with a Few Samples

论文阅读：Neural Voice Puppetry: Audio-driven Facial Reenactment

语音合成论文优选：个性化AdaSpeech: Adaptive Text to Speech for Custom Voice

语音合成论文优选：声音转换Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

语音合成论文优选:增量语音合成What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural

声纹克隆：Self supervised learning for robust voice cloning

语音合成论文优选：AutoML优化TTSLightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search

语音合成论文优选：lpcnet优化Lightweight LPCNet-based Neural Vocoder with Tensor Decomposition

语音合成论文优选: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS论文翻译

【论文学习笔记】《Deep Voice: Real-time Neural Text-to-Speech》

Learning the Beauty in Songs: Neural Singing Voice Beautifier

TTS学习笔记（一）：Real-Time-Voice-Cloning环境配置

语音合成论文优选：Triple M: A Practical Neural Text-to-speech System With Multi-guidance Attention And Multi-

Investigating Deep Neural Structures and their Interpretability in the Domain of Voice Conversion

语音合成论文优选STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive

语音笔记02 voice codecs

语音信号处理论文优选:Handling Background Noise in Neural Speech Generation

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-SayEN-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第三步 Module-EarSpeech 解耦思路

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 跨语言实验观察

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 时 ASV-T-SNE

Packet Voice Modeling 语音包模型

unimrcp-voice-activity语音检测

语音笔记01 Cisco Voice 简记

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)