作者:Yu Gu, Xiang Yin
会议:2021 ISCSLP
单位:字节 AI LAB
abstract
使用tacotron-like的encoder-decoder结构作为歌唱合成的声学模型,WaveRNN作为vocoder,另外有一个辅助的duration预测结构用于输入序列的扩帧。
The proposed system
2.1 Overview
- duration model:输入文本和musical info,预测phn的时长,再用note duration的限制做后处理;
- 声学模型:扩帧后的特征作为输入,预测80-d MEL,decoder是自回归的结构;
2.2 Feature representation
- duration的输入是XD = [Ph, Tp, Du],phn level的信息,Du是note理论的时长;
- 声学模型的输入是XA = [Ph, Pi, Po] ,frame level的信息,Po是3维位置信息,当前帧在phn中走过&剩余的百分比,当前phn在句子中的位置,然后都norm到浮点数。
2.3. Duration models
- 音符的起始时间和歌手演唱的起始时间是有偏差的,但是ByteSing实现中忽略了这一时间差;并且为了后续混音方便,将syllabel的时长限制为与note duration一致;事实证明只保留音节中元音和辅音比例的自由度并不影响真实的听感。
2.4. Acoustic models
因为encoder已经是扩帧之后的,因此attention很容易收敛并学到单调对齐
Experiments
- train set:90首歌,来自同一个female singer
- test set:训练集合外的10首歌
主观评测:直接对比了录制歌曲和合成歌曲,让受测者1-5打分,没有对比实验。