20200824:汉字转语音(语音合成)(二):Tacotron实践之算法原理篇

1、end-to-end

2、输入输出

  • model1:Tacotron2

    • 输入: raw text

    • 输出:mel频谱

  • model2: Wavenet

    • 输入:mel频谱(Tacotron2模型的输出值)

    • 输出: waveform

3、模型框架

  • Tacotron :总体来说,模型和sequence-to-sequence模型非常相似,大体上由encoder和decoder组成,raw text经过pre-net, CBHG两个模块映射为hidden representation,之后decoder会生成mel-spectrogram frame。

  • Tacotron2: Tacotron2使用了一个和Wavenet十分相似的模型来代替Griffin-Lim算法,同时也对Tacotron模型的一些细节也做了更改,最终生成了十分接近人类声音的波形。和Tacotron一样,pre-net的功能是作为bottleneck layer来增加泛化能力和加速收敛。除了Wavenet,Tacotron2和Tacotron的主要不同在于:

    • 不使用CBHG,而是使用普通的LSTM和Convolution layer decoder每一步只生成一个frame

    • 增加post-net,即一个5层CNN来精调mel-spectrogram

4、 评估

  • 指标:MOS分数(Mean Opinion Score),平均主观意见分。在国际标准中,统一使用MOS值来评价系统接收到的经过压缩后的话音质量。

猜你喜欢

转载自blog.csdn.net/weixin_38192254/article/details/115208051