作者:任意,谭旭
会议:SIGKDD2020(数据挖掘和知识发现顶会)
时间:2020年7月
demo link
没有用到什么新的方法,只是数据完全是爬虫得到的,效果听起来还可以,但是模型很多细节值得推敲。
abstract
从网上抓取的音乐数据,做伴奏分离,force-align,然后使用transformer训练从歌词中生成声学线性谱,然后用GL声码器还原。
优点:(1)率先使用爬虫的数据训练;(2)force-align节省大量人力;(3)模型简单;并且使用一个ref-encoder从带噪数据中学到singer的音色;(3)训练数据包括89个singer共计92h的数据,普通话,粤语,英语三种语言。可以生成多种语言&多歌手的歌曲。
introduction
- build一个歌词–singing的对齐工具,先做句子级别对齐,然后做phn级别的对齐;
- 多语言&多singer的歌唱合成系统,设计一个reference encoder,从 noisy singing中提取歌手音色,而不是使用singer IDl
3.2 Lyrics-to-Singing Alignment
- 首先用整首歌和歌词训练对齐模型,得到句子级别切分的wav和歌词;
- 对第一步的模型继续训练,得到phn级别对齐的模型;
训练时候使用了一些策略,但是没有太多的新意,也都是ASR中常用的方法。
3.3 Singing Modeling
- 使用FastSpeech的结构,分别预测歌词encoder,pitch encoder以及reference encoder
- 直接预测linear spec,然后用GL恢复
- Lyrics Encoder:歌词phn查表,编码,扩帧;
- Pitch Encoder:直接从train set中提取的pitch,看图5的意思是转成note 输入;
- RefEncoder:输入linear spec,最后压缩掉时间维度。相比于spk_id编码的好处在于:RefEncoder是对一句话的编码,因此infer的时候使用干净的ref wav,编码就是干净的;而spk-id的编码是说话人和音质混合在一起。----------解耦信息有限,不是非常靠谱