论文笔记:WaveNet: A Generative Model For Raw Audio

WaveNet: A Generative Model For Raw Audio

目的主要是:生成的语音听起来比其他的tts方法更流畅。
还可以实现:文本到语音,语音转换,生成音乐,辨别
其实就是提供了一个通用的网络,加以改造就能够完成不同的任务

相关的知识:
PixelCnn 用于图片生成的cnn
casual convolution 因果卷积
dilated convolution 扩展卷积
gated activation
residual and skip connection
残差神经网络ResNet:
https://blog.csdn.net/qq_40027052/article/details/78261737
http://www.itboth.com/d/iqyQF3/resnet-connection-skip
skip connection是残差神经网络的连接方式
https://www.jianshu.com/p/09643588f373

论文的中文翻译:
https://my.oschina.net/stephenyng/blog/1621584

论文的blog:
https://deepmind.com/blog/wavenet-generative-model-raw-audio/

论文中提到的文本转语音的方法(先使用tts模型),论文中gate的操作原因:
https://www.zhihu.com/question/56017966/answer/253599651

论文一般模型的输入输出:
https://www.cnblogs.com/seanliao/p/9595536.html

语音合成发展:
https://www.sohu.com/a/119298142_491255

猜你喜欢

转载自blog.csdn.net/travalscx/article/details/89429353
今日推荐