HIFISinger 微软

HIFISinger: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS

会议:2021 ICLR
作者:Jiawei Chen, Xu Tan
单位:微软亚研&微软工程
demo link
提pitch的工具

abstract

高采样率的音频可以表达更丰富的情感,但是更高的采样率也意味着频率和时间域更大的建模难度。本文提出HIFISinger,使用48K的语音进行高保真的歌唱还原。为了解决高采样率的问题,提出的解决方法有:(1)sub-frequency GAN(SF-GAN)对mel的子带进行分解,将原来的80d-mel按照低、中、高频分解成更多的子带,每个子带对应一个单独的判别器;(2)multi-length GAN(ML-GAN)处理高采样带来更长的采样序列,不同的长度对应不同的判别器;(3)对F0/UV进行单独的设计,选择合适的window/hop size;增大vocoder的感知野。

  • FastSpeech作为声学模型,Parallel WaveGAN作为vocoder

introduction

  • 24k和16k的语音不能进行歌唱情感的高保真还原
  • 直接简单增大采样率会导致:(1)声学模型预测难度增大----more frequency band;(2)vocoder预测难度增大----相同时间采样点数增加
  • 之前的工作要么没有用高采样率,要么直接使用高采样率,没有做太多针对性优化

Method

在这里插入图片描述

3.2 SF-GAN建模宽频

  • 背景:更高的频率意味着更加复杂多变的信息,有人提出将mel-80d增大到mel-120d,用其中的80-120 bin建模额外的高频信息,但是作者的实验发现和对于提升语音质量并没有帮助。需要在增大mel bins的同时增大STFT filter size,增大frequency bins等同于增大频域分辨率,而需要牺牲时间分辨率(window size)。作者的实验经验是最佳的window size=20ms,其他的都会产生语音质量下降。
  • 方法:
    • 为了改善mel预测的过平滑和失真,将mel bins分成低频(0-40),中频(20-60),高频(40-80),然后用不同的判别器做对抗训练。-----频带划分有重合或许比不重合要好
    • 使用LS-GAN(在语音上流行的用法)

ML-GAN建模长时波形

  • 背景:vocoder通常使用一个判别器,对于不同时间长度的波形变动建模有难度。
  • 方法:用不同的判别器区分不同长度的采样序列。LS-GAN。
  • 优点:(1)通过建模短的波形序列,减少了对长波形建模的难度;(2)通过建模不同长度的波形序列,可以更好的捕捉过长或者过短的phn duration。

其他优化

  • pitch/UV:基频对歌唱合成很重要,note转成pitch作为输入,预测基频残差,res+note;UV用于纠正基频预测;
  • 窗长:基频越大,对应的提取窗长应该越小;window size应该是基频周期的2~8倍。比如100hz的语音,周期10ms,window_size应该在20~80ms之间,TTS上常采用50ms;
  • 帧移:帧移越小,声学特征的时间分辨率越高,但是相同时间对应的序列也越长,对应声学模型建模的复杂度也越高;而增大帧移虽然会降低声学模型建模的难度,但是会增大vocoder建模的难度。
    window_size=20ms, frame_shift=5ms,4倍的经验数值
  • 感知野:因为歌唱中音素持续时间的变化很大,在vocoder中用一个更大的感知野,可以cover一个很长的vowel。

Guess you like

Origin blog.csdn.net/qq_40168949/article/details/118499624
Recommended