Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network - 代码天地

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

其他 2020-01-11 18:54:34 阅读次数: 0

会议：2019 APSIPA
作者：ZHOUYI Li Haizhou
单位：新加坡国立

abstract

average modeling approach用一个低维度的speaker embedding和vc网络联合训练，可以达到many-to-many cross-lingual的效果。
base-model: vc+i-vector作为speaker embedding表示。

introduction

average model可以表示训练集说话人的average voice。但是需要adaptive step for new target speaker。
adaptation 的三种经典方法：
（1）average model用新的说话人的句子进行自适应，但是由于两种语言之间的gap，会有较大的失真。

（2）用i-vector拼接在输入特征上，网络学习说话人独立的特征映射。但是i-vector提取的模型是单独的sv loss，没有和vc model联合训练。
（3）deep voice2: trainable speaker embedding+TTS联合训练，模型可以学到seen speaker的能力。
本文提出：speaker embedding+vc联合训练。声学特征通过一个辅助的网络的得到speaker embedding。

i-vector based vc

在这里插入图片描述
The training stage and conversion stage of the cross-lingual voice conversion system with the average model conditioned on i-vector.

vc with jointly trained speaker embedding

在这里插入图片描述

voice conversion的网络把ppgs转换成MCC，辅助的一个speaker embedding网络，输入同一个人一句话的MCC（不一定来自同一句话，最好不是），提取到定长的speaker embedding，然后repeat+拼接在ppgs编码后的latent embedding上。
因为speaker embedding的网络和文本无关，只是从MCC中提取说话人身份信息，因此可以适用于cross-lingual的转换中。

experiment

训练和测试的数据选取：一共男en-16, mandarin-16,女en-16， mandarin-16。
ppgs: 341-bilingual-ppgs
在这里插入图片描述

林林宋

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103217583

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

StarGAN-VC： non-parallel many-to-many voice conversion with StaGAN

F0-CONSISTENT MANY-TO-MANY NON-PARALLEL VOICE CONVERSION VIA CONDITIONAL AUTOENCODER

Many-to-Many Voice Conversion based Feature Disentanglement using Variational Autoencoder

SLT2021: OPTIMIZING VOICE CONVERSION NETWORK WITH CYCLE CONSISTENCY LOSS OF SPEAKER IDENTITY

ON the study of generative adversarial network for corss-lingual voice conversion

2019ins---Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star-GAN

One-shot Voice Conversion with Global Speaker Embeddings

2019icas--Cross-lingual Voice Conversion with Bilingual Phonetic PosteriorGram and Average Modeling

Unsupervised Cross-Domain Singing Voice Conversion

2018ins--Wavelet Analysis of Speaker Dependent and Independent Prosody for Voice Conversion

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

Converting Anyone’s Emotion:Towards Speaker-Independent Emotional Voice Conversion

[论文笔记] Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

2016 ICME:Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

The Voice Conversion Challenge 2018

[2020 interspeech] DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion

many-to-many

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-SayEN-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第三步 Module-EarSpeech 解耦思路

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 时 ASV-T-SNE

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 跨语言实验观察

Deep Speaker: an End-to-End Neural Speaker Embedding System

FASTSVC: FAST CROSS-DOMAIN SINGING VOICE CONVERSION WITH FEATURE-WISE LINEAR MODULATION论文理解

hibernate的many-to-many的示例

Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion

李宏毅，语音转换，voice conversion

Self-Supervised Representations for Singing Voice Conversion

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)