Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth Extension

基于递阶递归神经网络的语音频带扩展的波形建模与生成

作者:凌震华老师;成员:Yang Ai , 顾宇, and Li-Rong Dai

摘要

  本文提出了一种基于递阶递归神经网络(HRNN)的语音带宽扩展(BWE)的波形建模与生成方法。与传统的预测宽带语音波形谱参数的盲式频带扩展(BWE)方法不同,该方法在不使用声码器的情况下,直接对波形样本进行建模和预测。该模型受一个无条件的神经音频生成器SampleRNN的启发,用一个由长短期记忆(LSTM)层和前馈层组成的神经网络来表示每个宽带或高频波形样本在输入窄带波形样本上的分布情况。长短期记忆网络形成一个递阶结构,并且每个层以特定的时间分辨率工作,以有效地捕获时域序列之间的大跨度依赖关系。此外,还利用基于深度神经网络的状态分类器获得窄带语音的瓶颈特征等附加条件作为辅助输入,进一步提高了宽带语音的生成质量。比较几种波形建模方法的实验结果表明,基于HRNN的方法比基于扩张卷积神经网络的方法和样本级递归神经网络方法能获得更好的语音质量和运行时间效率。我们提出的方法在重建宽带语音的主观质量方面也优于传统的基于LSTM-RNNs的声码器盲式频带扩展(BWE)方法。

关键字:语音带宽扩展,循环神经网络,扩张卷积神经网络,瓶颈特征

一、引言

  语言交流在人们的生活中占有很重要的地位,然而由于通信信道和语音采集设备的限制,语音信号的带宽通常限在窄频带。比如在公共交换电话网(PSTN)中,语音信号的带宽小于4kHZ。语音高频部分的缺失通常导致低自然度和低可懂度。比如很难区分摩擦音和类似的声音。因此,语音带宽扩展(BWE)是利用宽带语音信号的低频分量与高频分量之间存在的相关关系来恢复窄带语音中缺失的高频分量的方法,引起了许多研究者的关注。盲式频带扩展的方法不仅可以应用于实时语音通信,还可以应用于其他语音信号处理领域,如文本到语音(TTS)合成[1]、语音识别[2][3]和语音增强[4][5]

  许多研究者在BWE领域做了大量的工作。一些早期的研究采用语音产生的源-滤波器模型,试图从输入窄带信号中分别恢复高频残差信号和谱包络。高频残差信号通常用谱折叠法[6]从窄带残差信号中估计出来。从窄带信号中估计高频谱包络一直是一项困难的任务。为了实现这一目标,提出了诸如码本映射[7]和线性映射[4],以及使用高斯混合模型(GMMs)[8]-[11]和隐马尔可夫模型(HMMs)[12]-[15]的统计方法。在统计方法上,建立声学模型来表示窄带谱参数与高频谱参数之间的映射关系。虽然这些统计方法比简单的映射方法取得了更好的性能,但由于GMMs和HMMs建模能力不足,可能导致频谱参数过平滑,从而限制了重建语音信号的质量[16]

  在最近几年,深入学习已成为机器学习研究的一个新兴领域。深度学习技术已经成功地应用于许多信号处理任务中。在语音信号处理中,具有深层结构的神经网络被引入到语音合成[17][18]、语音转换[19]、[20]、语音增强[21]、[22]等语音生成任务中。在盲式频带扩展领域,神经网络也被用来预测表征声道滤波特性的频谱参数[23]-[25],或者用短时傅里叶变换(STFT)[26],[27]导出的原始对数量级谱。所研究的模型结构包括深层神经网络(DNN)[28]–[30]、递归时间受限Boltzmann机(RBM)[31]、具有长期短期记忆(LSTM)单元的递归神经网络(RNN)[32]等。这些方法比传统的统计模型(如GMMs和HMMs)具有更好的盲式频带扩展(BWE)性能,因为深度神经网络能够更好地建立输入和输出声学参数之间复杂的非线性映射关系。

  

猜你喜欢

转载自www.cnblogs.com/LXP-Never/p/10147240.html