语音合成论文优选：增量语音合成Alternate Endings Improving Prosody for ITTS - 代码天地

语音合成论文优选：增量语音合成Alternate Endings Improving Prosody for ITTS

其他 2021-03-25 21:48:51 阅读次数: 0

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

本文是格勒诺布尔阿尔卑斯大学在2021.02.19更新的文章，文章主要做增量语音合成工作iTTS，具体的文章链接https://arxiv.org/pdf/2102.09914.pdf

1 研究背景

在线系统对实时率要求较高，增量式语音合成iTTS是减少latency的方案之一。但语音合成需要根据全局的语境才能合成较高的语音，因此iTTS需要解决使用部分语境造成的语音自然度下降的问题。本文使用语言模型GPT2来预测语境，来优化iTTS的自然度。

2 详细设计

详细的设计为图1所示，使用GPT2预测下一个词，然后使用声学模型和声码器合成语音。其中table1展示了集中对比系统，Ground truth为完整句子， Unkonwn k=0，不做任何处理，Ground Truth k=1，完整句子中获取下一个词，GPT2 k=1使用gpt2预测下一个， random是随机预测一下词。

3 实验结果

实验对比了以上集中方案，图2展示了时长预测，可以看出GPT2的结果是弱于全句子和GT k=1，但好于k=0和random。tabel2和table3,图3都展示一致的结果。

4 总结

本文使用GPT2语音模型来优化增量语音合成ITTS的合成音频质量，结果比不做任何处理和随机添加词较好，但比正式语境差。（其实本文还可以添加一些实验，比如gpt2预测k的值可以增大，看结果变化）

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/113946776

语音合成论文优选：增量语音合成Alternate Endings Improving Prosody for ITTS

语音合成论文优选：Mixture Density Network for Phone-Level Prosody Modelling in Speech Synthesis

语音合成论文优选:增量语音合成What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural

语音合成论文优选：Anyone GAN Sing

语音合成论文优选：脑机接口的语音合成Advancing Speech Synthesis using EEG

语音合成论文优选：使用脑电图来进行语音合成speech synthesis using eeg

语音合成论文优选：Expressive Neural Voice Cloning

语音合成论文优选：Enhancing Monotonicity for Robust Autoregressive Transformer TTS

【论文精读】Improving Simple Models with Confidence Profiles

语音合成论文优选：流式语音合成High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency

语音合成论文优选：短语级语音并发合成PPSpeech: Phrase based Parallel End-to-End TTS System

论文翻译-语音合成：Tacotron

论文翻译-语音合成：WaveNet

TTS | 语音合成论文概述

语音合成

Dealing with line endings

语音识别与语音合成

语音识别语音合成

语音合成论文优选STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive

语音合成论文优选: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

语音合成论文优选：基于GAN声码器的成功原因？GAN Vocoder: MRD Is All You Need

语音合成论文优选：lpcnet优化Lightweight LPCNet-based Neural Vocoder with Tensor Decomposition

语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model

语音合成论文优选：声音转换Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

语音合成论文优选：个性化AdaSpeech: Adaptive Text to Speech for Custom Voice

语音合成论文优选：BVAE-TTS BVAE for Non-Autoregressive TTS

语音合成论文优选：AutoML优化TTSLightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search

语音合成论文优选：Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide

语音合成论文优选：通用tts系统Towards Universal Text-to-Speech

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)