文章目录
单位:华为诺亚俄罗斯莫斯科实验室
作者:Vadim Popo Ivan Vovk
会议:2021 ICML
备注:没看完,感觉距离实用比较远就没有仔细研究了
abstract
denoising diffusion probabilistic (DPM)model:一种从噪音中剥离出图像/音频的模型
introduction
现有的tacotron类似的结构生成语音质量很好,但是推理速度慢,且有发音错误;
Glow-TTS使用transformer-Encoder,以及Glow-Deocder,加速的同时减少了发音错误,使用Monotonic Alignment Search algorithm,减少对齐错误;
尝试用简单的分布(通常是正态分布)建模表征逐渐被打乱的前向分布,然后用神经网络建模这个反向的过程。随机微分为DPM提供了计算的基础。
截止目前,DPM vocoder的成功尝试有WaveGrad和DiffWave,但是还没有基于DPM的特征生成器。
Grad-TTS 包括特征生成器和score-based decoder using recent diffusion probabilistic modelling insights. decoder将输出encoder的输出转换为mel-spec,encoder的输出是高斯noise。为了实现从高斯噪声中重建数据,作者写下传统的正向和反向扩散的通用版本。模型可以在输出高质量的mel-spec以及提升推理速度之间做折中。实验发现,只需要10次反向迭代,就可以生成高质量的mel-spec。还可以做end-to-end TTS,直接生成语音而不是mel-spec。