Voice conversion with SI-DNN and KL divergence based mapping without parallel training data

单位:哈工大&微软亚研院
期刊: speech communication

SI-DNN–speaker independence NN
对 声学输入帧 在音素空间打上标记
KLD适用于source speaker frame和target之间的声学失真测量

abstract

 我们提出说话者独立的DNN和基于映射的KL散度完成非平行数据的VC任务。source和target说话者的不同通过SI-DNN估计的输出后验达到一致,输出后验是声学输入帧到音素空间的映射概率。KLD用于测量每一个source输入帧到target帧之间近似映射的失真。是否带有target speaker的词转换决定它是监督的还是无监督的,两种方式都可以。在监督模式下,利用大量的训练数据训练传统的,统计参数的TTS,source speaker的每一个输入帧被分到senone上。无监督模式下,source speaker的输入帧在最小KL下被聚类到音素的矩心或者原始语音帧。客观和主观的评价表示新的算法比基于平行数据做的DNN的序列最小误差达到的性能好。

1.introduction

 VC任务的广泛用途—对于个性化但是小数据的TTS做数据增广,声学到发音系统的反演映射等等。

  • parallel dataset

 基于平行数据的语音转换,首先对source和target的语音通过动态规划进行对齐,然后找转换函数。主要方式有JD-GMM和基于映射的NN,JD-GMM的效果还算可以,但是由于估计高斯部分的均值方差时数据平均导致的over smoothing,会使得生成语音质量损失而且相似度下降。为了解决过平滑的问题,提出来很多改进措施。--------因为NN强的非线性拟合能力,是一个好的发展方向。在NN上提出序列最小误差训练(sequence minimization erro, SME)以解决source和target之间的本质区别。BLSTM比传统的NN性能表现更好。还有examplar-based sparse representation(基于范例的稀疏表示),对幅度谱做非负矩阵分解,然后用于转换。(此处断句没大明白??)
 这样的系统想要实现自然度和相似度还可以的系统至少需要30-50句的平行训练数据,

  • no-parallel dataset
     有在source和target之间的声学特征做声学聚类,并估计他们的映射;还有在考虑连贯性的基础上找target上最近的目标帧;还有一些方法是去做非平行数据上source和target的对齐,比如用语音识别的方式将source和target 的每一帧做state label,然后对应source seq 的每一个帧标签找target对应的标签序列,还有iteration alignment的方法可以在同种或者不同种语种之间做声学向量的映射。
     但是上面提到的基于非平行数据的方法都没有达到和平行数据一样性能的结果。

 最近我们提出一个基于很多训练时unseen的voice conversion的方法2016b,受启发于2016a跨语种的TTS任务,它用SI-DNN均一化不同语种说话人的区别,用KLD量化不同语音帧的音素失真。SI-DNN的ASR提取说话者无关的senone,我们和sun2016的区别是(1)sun用的phonetic-based SI-DNN信息,

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/87689888
今日推荐