SLT2021: UNSUPERVISED ACOUSTIC-TO-ARTICULATORY INVERSION NEURAL NETWORK LEARNING BASED ON DETERMINIS

0. 题目

UNSUPERVISED ACOUSTIC-TO-ARTICULATORY INVERSION NEURAL NETWORK LEARNING BASED ON DETERMINISTIC POLICY GRADIENT

基于确定性策略梯度的未经监督的语音到人工反演神经网络学习

(题目不懂..)

1. 摘要

本文提出了一种深度神经网络的无监督学习方法,该方法对任意话语执行听觉到发音的反转。常规的无监督声转发音反演方法基于综合分析方法和非线性优化算法。一个局限性在于,它们需要耗时的迭代优化来获得给定目标语音片段的发音参数。在学习了它们之间的关系后,神经网络无需迭代优化即可获得这些发音参数。然而,常规方法需要监督学习以及成对的声学和发音样本。我们提出了一种基于混合自动编码器的无监督学习框架,用于可捕获上下文信息的声学到发音反转神经网络。该框架的重点是使每一次的训练有效。我们研究了几种强化学习算法,并显示了确定性策略梯度的有用性。实验结果表明,所提出的方法不仅可以推断出训练参数的发音参数,而且还可以推断出不可见的发音。对于开放测试样品,平均重建误差与传统方法相似,甚至更低

关键词: Physical speech synthesis, acoustic-to-articulatory inversion, analysis-by-synthesis, reinforcement learning, distal learning

物理意义语音合成,声音到发音的逆变换,综合分析,强化学习,远端学习

2. 简介

人声是根据诸如下颌角度之类的发音参数而产生的。 声音到发音的反转试图从声音波形中获得发音参数。 由于这是一个非线性过程,因此从声音波形中获取发音参数是一项艰巨的任务[1]

综合分析方法在发音参数估计算法内部使用语音合成器,该合成器模拟物理声音生成过程。通常,物理语音合成模型会根据说话器官的形状和大小来调整说话者的个性。该方法通过使用合成器合成语音信号并测量目标与合成语音之间的相似性来评估发音参数的适合性。给定目标语音和物理语音合成模型,将搜索产生最高适合度的最佳发音参数序列。作为对此方向的研究,在文献[2]中提出了一种基于码本的方法,该方法使用了简化的合成器和动态规划(DP)搜索。使用哈斯金斯发音合成器[3],在[4]中提出了一种基于遗传算法的方法。远程学习[5]已在VocalTractLab(VTL)语音合成器[7]中用于[6]。有时甚至使用随机搜索[8]。但是,现有研究仅针对一次提取特定音素或单词的语音段的发音参数;这个过程很耗时。此外,预处理需要适当的分割

另一种方法是基于监督学习 使用配对的发音训练数据的统计模型。 已经研究了几种统计模型,包括线性变换[9],HMM [10],联合概率分布[11]和神经网络[12、13、14]。 作为声学发音语料,经常使用mngu0 [15]和MOCHA-TIMIT [16]。 但是,这些语料库的局限性在于mngu0仅具有一个具有1354个发音的扬声器,而MOCHA-TIMIT具有来自两个扬声器的460个发音。 在学习了映射之后,可以根据语音波形有效地预测发音特征。 如何规范化或建模说话人变化是一个问题,已经研究了几种方法[17,18]

本文提出了一种基于综合的新分析方法 通过使用神经网络从语音波形中推断出发音参数的框架。这个想法是通过将一个深度神经网络和一个物理语音合成器连接起来以形成无监督学习的混合自动编码器。神经网络采用语音发音并生成一系列发音参数,然后将其用于驱动物理语音合成器。训练了神经网络,以使物理语音合成器的输出声音与原始语音之间的负重构误差最大化。由于梯度不会通过物理语音合成器,因此我们使用强化学习来训练网络。从强化学习的角度来看,编码器神经网络是一种策略功能,物理语音合成器是一种环境,负重构误差是一种奖励。训练后,编码器网络将充当发音清晰的反向神经网络。网络将接受任何话语,并通过前向传播计算输出,而无需进行迭代优化

然而,这种方法的困难在于编码器神经网络的学习速度。 尽管强化学习算法旨在随着学习进度的增加而增加奖励,但我们发现学习通常不会根据实践进行。 这是因为动作空间是连续的,高维的,并且物理语音合成器对其某些控制参数非常敏感。 为了解决这个问题,我们提出了一种基于确定性策略梯度(DPG)[19]的混合自动编码器学习方法。 对于高维连续控制问题,DPG比随机策略梯度方法更具优势,因为它不从分布中抽取动作,而是从设计好的适合于我们的目的动作抽取

模块:

  • REINFORCE [20]
  • actor-critic [21]
  • 确定性策略梯度(DPG)作为策略梯度强化学习算法
  • 讨论与远端学习的联系

3. 其他-容易懂

4. 其他-不容易懂

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/112986679
今日推荐