DeepSinger: Singing Voice Synthesis with Data Mined From the Web

作者:任意,谭旭
会议:SIGKDD2020(数据挖掘和知识发现顶会)
时间:2020年7月

demo link
没有用到什么新的方法,只是数据完全是爬虫得到的,效果听起来还可以,但是模型很多细节值得推敲。

abstract

从网上抓取的音乐数据,做伴奏分离,force-align,然后使用transformer训练从歌词中生成声学线性谱,然后用GL声码器还原。
优点:(1)率先使用爬虫的数据训练;(2)force-align节省大量人力;(3)模型简单;并且使用一个ref-encoder从带噪数据中学到singer的音色;(3)训练数据包括89个singer共计92h的数据,普通话,粤语,英语三种语言。可以生成多种语言&多歌手的歌曲。

introduction

  • build一个歌词–singing的对齐工具,先做句子级别对齐,然后做phn级别的对齐;
  • 多语言&多singer的歌唱合成系统,设计一个reference encoder,从 noisy singing中提取歌手音色,而不是使用singer IDl

3.2 Lyrics-to-Singing Alignment

  • 首先用整首歌和歌词训练对齐模型,得到句子级别切分的wav和歌词;
  • 对第一步的模型继续训练,得到phn级别对齐的模型;
    训练时候使用了一些策略,但是没有太多的新意,也都是ASR中常用的方法。

3.3 Singing Modeling

  • 使用FastSpeech的结构,分别预测歌词encoder,pitch encoder以及reference encoder
  • 直接预测linear spec,然后用GL恢复
    在这里插入图片描述
  • Lyrics Encoder:歌词phn查表,编码,扩帧;
  • Pitch Encoder:直接从train set中提取的pitch,看图5的意思是转成note 输入;
  • RefEncoder:输入linear spec,最后压缩掉时间维度。相比于spk_id编码的好处在于:RefEncoder是对一句话的编码,因此infer的时候使用干净的ref wav,编码就是干净的;而spk-id的编码是说话人和音质混合在一起。----------解耦信息有限,不是非常靠谱
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/118399402