语音合成论文优选:增量语音合成Alternate Endings Improving Prosody for ITTS

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

本文是格勒诺布尔阿尔卑斯大学在2021.02.19更新的文章,文章主要做增量语音合成工作iTTS,具体的文章链接https://arxiv.org/pdf/2102.09914.pdf

1 研究背景

在线系统对实时率要求较高,增量式语音合成iTTS是减少latency的方案之一。但语音合成需要根据全局的语境才能合成较高的语音,因此iTTS需要解决使用部分语境造成的语音自然度下降的问题。本文使用语言模型GPT2来预测语境,来优化iTTS的自然度。

2 详细设计

详细的设计为图1所示,使用GPT2预测下一个词,然后使用声学模型和声码器合成语音。其中table1展示了集中对比系统,Ground truth为完整句子, Unkonwn k=0,不做任何处理,Ground Truth k=1,完整句子中获取下一个词,GPT2 k=1使用gpt2预测下一个, random是随机预测一下词。

3 实验结果

实验对比了以上集中方案,图2展示了时长预测,可以看出GPT2的结果是弱于全句子和GT k=1,但好于k=0和random。tabel2和table3,图3都展示一致的结果。

4 总结

本文使用GPT2语音模型来优化增量语音合成ITTS的合成音频质量,结果比不做任何处理和随机添加词较好,但比正式语境差。(其实本文还可以添加一些实验,比如gpt2预测k的值可以增大,看结果变化)

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/113946776