0. 题目

CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS

语音代理的会话式端到端TTS

1. 摘要

端到端神经TTS在阅读风格语音合成方面取得了出色的表现。但是，由于语料库和建模能力的限制，构建高质量的会话式TTS仍然是一个挑战。这项研究的目的是在序列到序列建模框架下为语音代理建立对话式TTS。首先，我们采用一种新的录音方案来构建一个非常适合语音代理的自发性对话语音语料库，以确保录音质量和对话风格。其次，我们提出了一种会话上下文感知的端到端TTS方法，该方法采用了辅助编码器和会话上下文编码器来专门增强会话中当前话语及其上下文的信息。实验结果表明，所提出的方法根据会话上下文产生了更自然的韵律，在话语级和会话级均具有明显的偏好增益。此外，我们发现该模型具有表达某些自发行为的能力，例如填充词和重复单词，这使得会话说话的风格更加逼真

关键词: Text-to-Speech, End-to-End, Conversational TTS, Speech Corpus, Voice Agent

文本到语音，端到端，会话TTS，语音语料库，语音代理

2. 简介

文本语音转换（TTS）在人机对话中扮演着越来越重要的角色[1]，使机器能够与用户对话。但是，现有的TTS技术在面向会话的任务中仍然无法获得令人满意的性能和沉浸式体验。它仍然希望具有更人性化的自然语言，并具有适应特定对话环境的对话式讲话风格。为了构建高质量的会话TTS系统，至少需要解决两个问题：1）开发会话语音语料库的有效方法，以及2）在会话中捕获丰富韵律的高性能高表现力TTS模型

标准语料库通常由精心设计的文本和高质量的录音。这种语料库主要要求说话者以一致的阅读方式说出每个话语。因此，在该记录方案下，说话者难以阅读具有自然的会话风格韵律的上下文感知的会话记录。在[2]中，语料库是通过让两个说话者自由地讨论一个话题来呈现真正的自发性对话说话风格而建立的。但这还会带来其他问题，例如发音不清晰，韵律过度和背景噪音，可能会加重数据注释和建模的难度。为了缓解这些问题，本文提出了一种构建自发会话语料库的新方案，该方案包括三个步骤：场景和对话设计，表演形式的录制和转录。通过结合文献[2]中的阅读风格记录方案和自由交谈方案，建立具有清晰发音，高音质和自发会话风格的会话语料库变得更加有效

会话语料库具有以下显着特征韵律种类繁多，上下文相关性强。而且，由于上述收集和注释的困难，语料库通常具有较小的大小。我们需要丰富的文本功能和高性能的模型来构建会话式TTS系统。先前的大多数研究都是基于基于HMM或基于DNN的统计参数语音合成（SPSS）[3]，它们利用了与会话相关的复杂标签，例如语音或对话行为[4]和扩展上下文[5]，以直接提供丰富的文本信息以补偿其有限的建模能力。但是，昂贵的标签成本和不完整的对话表示使构建高表现力的对话TTS变得更加困难。为避免这些问题，在本文中，我们基于最新的序列到序列（seq2seq）模型，提出了一种新的会话上下文感知TTS方法。基于seq2seq范例的端到端TTS [6、7、8、9、10]最近展示了强大的建模能力，可以直接从字符或音素序列合成自然语音。这带来了放弃常规复杂标签的可能性。此外，我们引入了辅助编码器，通过从BERT嵌入和语法结构上的统计特征中提取更多有用的潜在语义和句法特征，来帮助产生更好的韵律。此外，与传统的对话TTS不同，我们直接使用对话上下文编码器从聊天历史中提取与韵律相关的信息，该信息由一系列话语级BERT嵌入表示

扫描二维码关注公众号，回复： 12617576 查看本文章

本文将首先介绍我们的新录音方案自发会话语音语料库，并以此方式开发了中文语音代理语料库。然后，我们详细描述了我们提出的会话上下文感知的端到端TTS系统，包括端到端模型，辅助编码器和会话上下文编码器。最后，我们使用包含客户与代理商之间典型对话的测试集进行CMOS测试，以评估我们的方法在话语级别和对话级别上的性能。实验结果表明，辅助编码器和会话上下文编码器都可以有效地提高自然性。此外，我们发现该模型具有表达某些自发行为的能力，例如填充词和重复单词，从而使对话的说话风格更加逼真