SLT2021: OPTIMIZING VOICE CONVERSION NETWORK WITH CYCLE CONSISTENCY LOSS OF SPEAKER IDENTITY

0. 题目

OPTIMIZING VOICE CONVERSION NETWORK WITH CYCLE CONSISTENCY LOSS OF SPEAKER IDENTITY

具有说话者身份的循环一致性丢失的语音转换网络优化

通过同一标识说话人周期一致性Loss来优化的音色转换网络

1. 摘要

我们提出了一种新颖的训练方案来优化声音同一标识说话人周期一致性Loss来优化的音色转换网络。 训练方案不仅使帧级频谱损失最小,而且使说话者身份损失最小。 我们引入了一个周期一致性损失,该损失限制了转换后的语音以保持与话语水平上的参考语音相同的说话人身份。 虽然所提出的训练方案适用于任何语音转换网络,但我们选取了: 在本文描述的平均模型语音转换框架下进行了研究。 在CMU-ARCTIC和CSTR-VCTK语料库上进行的实验证实,该方法在说话人相似性方面优于基线方法

关键词: Voice conversion, cycle consistency loss, speaker embedding

语音转换,周期一致性Loss,说话人音色嵌入向量

2. 简介

语音转换(VC)[1]的目的是在保留语言信息的同时,将源说话者发出的语音信号修改为听起来像目标说话者发出的语音。此技术具有多种应用程序,例如情感转换,语音变形,个性化文本到语音合成,电影配音以及其他娱乐应用程序。语音转换管道通常由多个功能组成: 提取,特征转换和语音生成。在这项工作中,我们专注于特征转换。许多研究致力于特定声源-目标说话人对之间的频谱特征转换,例如,高斯混合模型(GMM)[2、3、4、5],频率扭曲[6、7、8、9] ,基于示例的方法[10、11、12],深度神经网络(DNN)[13、14、15]和长短期记忆(LSTM)[16]。为了受益于公开可用的语音数据并减少所需的目标数据量,提出了基于平均模型的方法。与其从头训练目标演讲者的转换模型,不如先训练具有多讲话者数据库的通用模型,然后通过少量目标数据[17、18、19]使通用模型适应目标。被称为平均模型方法。可替代地,在一些其他研究中,说话者向量,例如ont-hot矢量,i矢量或说话人嵌入被用作辅助输入来控制说话人身份。由于ont-hot说话人矢量仅适用于封闭式说话人训练,例如在变分自动编码器(VAE)[20,21]中,对于看不见的说话人[22],i矢量是更好的扬声器表示形式。关于语音转换的说话人嵌入技术[23、24、25、26、27]也有其他研究

尽管取得了进步,但说话人与目标说话人的相似性 上述技术中有待改进的地方[28]。 原因之一是这种方法试图使声学特征空间处的转换特征与目标特征之间的差异最小化,该差异与说话人身份没有直接关系。 为了进一步改善说话人与目标语音之间的说话人相似性,最近的研究提出将感知损失作为语音合成的反馈约束。 在[29]中,对说话人嵌入空间的反馈约束被用于语音合成。 文献[30]提出了一个“验证到综合”框架,在该框架中,VC是通过自动说话者验证(ASV)网络进行训练的(跟梁爽讨论)

在本文中,我们引入了周期一致性损失 说话者嵌入空间,以增强平均模型VC方法的说话者身份转换。 在所提出的方法中,说话人独立语音后验图(PPG)[31]用于表示内容信息,而从预训练的说话人嵌入提取器提取的说话人嵌入用于控制生成的说话人身份。 为了确保生成的语音保留目标说话人身份,周期一致性损失会鼓励说话人嵌入转换后的语音与输入的说话人嵌入相同

3. 其他-容易懂

一种流行的平均建模方法(AMA)利用说话者独立的PPG功能[17、18、32]作为特征表示,这使我们能够使用多说话者的公共可用数据进行语音转换建模。 它以PPG功能为输入,并生成mel倒谱系数(MCC)。 图1(a)给出了没有嵌入说话者作为输入的平均模型的训练过程。 在适应阶段,将使用少量目标数据对转换模型进行微调。 图1(b)给出了以说话者嵌入为输入的平均转换模型的训练过程。 与图1(a)不同,图1(b)使用说话人嵌入来控制说话人身份。 在自适应期间,从目标语音中提取说话人嵌入,并且还使用目标数据对模型进行了微调

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/112974382