Self-Supervised Representations for Singing Voice Conversion

企业开发 2023-08-12 20:39:15 阅读次数: 0

2023.3
meta AI

method

在这里插入图片描述

本文更偏向于多个维度实验之后的经验分享，实操性还是比较强的
hubert提取content embedding，这里使用的hubert-emb不是预训练的特征，而是hubert模型经过ASR数据finetune的特征。但是实验证明，finetune之后的音色解耦明显优于pre-train model，但是还是有残留；
f0经过f0-encoder得到更多的谐波表征，infer阶段会进行shift。因为speaker embeddding实际上也建模了说话人的基频分布，直接使用src_f0，结果会差一些。假设 $f_A$ 和 $f_B$ 都是高斯分布。
speaker-emb经由LUT之后，三种特征拼接在一起送入HiFiGan.
基频处理的方式如下图

实验结果

speech+sing的数据比sing-single的数据合成质量更好；本文用24k数据200h 高保真说话，10+h歌唱数据（NUS48E+CSD+AmericanSong）
自监督的模型，基于asr数据finetune之后，会过滤掉一些说话人的特征，合成的语音质量&目标人相似度都有提升；相比于wav2vec+finetune，hubert不做finetune可以达到相似的性能，说明hubert中的说话人特征比wav2vec少。
PBTC的基频编码方式更好一些
inference阶段，source speech中提取f0，shift到目标说话人的范围；

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/130701542

Self-Supervised Representations for Singing Voice Conversion

Unsupervised Cross-Domain Singing Voice Conversion

One-shot Voice Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams

FASTSVC: FAST CROSS-DOMAIN SINGING VOICE CONVERSION WITH FEATURE-WISE LINEAR MODULATION论文理解

[2020 interspeech] DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion

Towards Better Understanding of Self-Supervised Representations / Q-Score

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

The Voice Conversion Challenge 2018

wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations

【自监督论文阅读笔记】CASTing Your Model: Learning to Localize Improves Self-Supervised Representations

Learning the Beauty in Songs: Neural Singing Voice Beautifier

supervised——＞self-supervised

DeepSinger: Singing Voice Synthesis with Data Mined From the Web

SLT2021: LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER

Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion

李宏毅，语音转换，voice conversion

self-supervised learning

Self-supervised

声纹克隆：Self supervised learning for robust voice cloning

SEMI-SUPERVISED LEARNING FOR SINGING SYNTHESIS TIMBRE

SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS论文翻译

[2021icas][Tencent] Lite sing Towards Fast, Lightweight and Expressive Singing Voice Synthesis

ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic

2019trans--Sequence-to-Sequence Acoustic Modeling for Voice Conversion

Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

ON the study of generative adversarial network for corss-lingual voice conversion

One-shot Voice Conversion with Global Speaker Embeddings

2021-3-13组会 Overview of Voice Conversion

Transferring Source Style in Non-Parallel Voice Conversion

Investigating Deep Neural Structures and their Interpretability in the Domain of Voice Conversion

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)