Learning latent representations for style control and transfer in end-to-end TTS - 代码天地

Learning latent representations for style control and transfer in end-to-end TTS

其他 2021-12-14 18:16:33 阅读次数: 0

会议：2019 icassp
单位：中科大
作者：zhangyajie， lingzhenhua

文章目录

abstract

使用Tacotron+VAE的方法进行E2E-TTS的style control。
选择VAE的原因是在解耦，缩放以及拼接能力上都表现优秀，有助于无监督风格控制和风格转换。

1. introduction

【2018 interspeech】Expressive speech synthesis via modeling expressions with variational autoencoder （Akuzawa）也使用TTS+VAE的方法，与之不同的是：（1）Akuzawa的目的是生成有表现力的语音，直接采用inference过程中生成的latent emb，我们的目的是进行风格控制，会修正生成的prior of latent distribution；（2）我们是基于E2E-TTS,而Akuzawa不是。

2. MODEL

2.1 VAE

KL散度与交叉熵区别与联系，讲的很好

VAE loss = reconstruct loss - KLD

reconstruct loss: 作用在decoder上，预测样本和真实样本
KLD： encoder预测结果z和高斯分布的交叉熵
KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
encoder先输出两个值，分别指代为均值，方差，然后通过如下计算得到z;(logvar是encoder直接的数据，等同于 $\sigma$

eps = Variable(std.data.new(std.size()).normal_())  # 符合0-1高斯分布的一个随机采样点
z = eps.mul(std).add_(mu)  # 计算的均值方差下的高斯分布，z是符合这种分布的一个采样点

KLD和reconstruct loss的形式都会是多样的

2.2 Proposed Model Architecture

在这里插入图片描述

loss函数的设计有问题：会遇到KL collapse的问题，原因是：KL Loss的收敛速度很快，收敛为0附近的时候重建损失还没有收敛，因此encoder会无效，为了避免这个问题，使用两个trick：

（1）KL annealing ：KL Loss加一个权重，初始是0，然后慢慢增加；
（2）每k步考虑一次KL Loss

3. EXPERIMENTS AND ANALYSIS

3.2.1. Interpolation of latent variables

3.2.2 Disentangled factors

在这里插入图片描述

结果分析表明latent representation的不同维度可以单独控制不同的风格，比如pitch-height, local pitch variation, speaking rate等。

3.2.4 style transfer

在这里插入图片描述

3.2.5 主观测试

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/113869971

Learning latent representations for style control and transfer in end-to-end TTS

GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

End-to-end Learning

【转载】迁移学习(Transfer learning),多任务学习(Multitask learning)和端到端学习(End-to-end deep learning)

「Transfer Learning」Note on Discriminative Patch Representations

End-to-End Machine Learning Project

[论文阅读] End-to-End Incremental Learning

SLT2021: CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Learning Linear Transformations for Fast Arbitrary Style Transfer

Random Forest in Python: A Practical End-to-End Machine Learning Example

CFNet：End-to-end representation learning for Correlation Filter based tracking

TVM: End-to-End Optimization Stack for Deep Learning

深度学习的 “ 端到端模型（end-to-end learning）”

端到端的学习end-to-end learning （理解）

《End-to-End Learning of Motion Representation for Video Understanding》论文阅读

《End-to-End Learning of Motion Representation for Video Understanding》文献阅读

深度学习的“ 端到端模型“（end-to-end learning）

端到端的学习（end-to-end learning）

OmniMVS拜读：End-to-End Learning for Omnidirectional Stereo Matching

PivotNet：Vectorized Pivot Learning for End-to-end HD Map Construction

InstructTTS: Modeling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt

Deep Learning by Andrew Ng 学习笔记之Neural Style Transfer

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

语音合成论文优选：短语级语音并发合成PPSpeech: Phrase based Parallel End-to-End TTS System

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection(VoxelNet模型)

对机器学习中end-to-end learning（端到端学习）的理解

机器学习中什么是端到端的学习（end-to-end learning）？

《End-to-end Video-level Representation Learning for Action Recognition》论文解读之DTPP

Explaining How a Deep Neural Network Trained with End-to-End Learning Steers a Car论文笔记

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)