0. 题目

DENOISING-AND-DEREVERBERATION HIERARCHICAL NEURAL VOCODER FOR ROBUST WAVEFORM GENERATION

去噪和去混响杂波的多层次神经声码器-用于鲁棒波形生成

1. 摘要

本文提出了一种去噪和去混响分层神经声码器（DNR-HiNet），用于将嘈杂和混响的声学特征转换为干净的语音波形。我们主要通过修改原始HiNet声码器中的幅度谱预测器（ASP）来实现它。这种经过修改的去噪和去混响ASP（DNR-ASP）可以根据输入的降级声学特征预测干净的对数幅度频谱（LAS）。为此，DNR-ASP首先预测嘈杂和混响的LAS，与噪声信息有关的噪声LAS，以及与混响信息有关的室内脉冲响应，然后执行初始降噪和去混响。然后，通过另一个神经网络将初始处理的LAS增强为最终的清洁LAS。为了进一步提高生成的干净LAS的质量，我们还在DNR-ASP中引入了带宽扩展模型和频率分辨率扩展模型。实验结果表明，DNRHiNet声码器能够在给定噪声和混响声学特征的情况下生成去噪和去混响的波形，并且优于原始的HiNet声码器和其他一些神经声码器。我们还将DNR-HiNet声码器应用于语音增强任务，其性能与几种高级语音增强方法相比具有竞争力

关键词: neural vocoder, denoising, dereverberation, speech enhancement

神经声码器，去噪，去混响，语音增强

2. 简介

神经声码器可根据声学特征重建语音波形，是文本语音转换（TTS）合成[1]和语音转换（VC）系统[2]的关键组件。典型的神经声码器使用自回归[3，4，5]，基于知识提取的[6，7]或基于流的神经网络[8]。还有非自回归神经源滤波器（NSF）[9]和HiNet声码器[10，11]，它们将神经网络与信号处理算法结合在一起。对神经声码器进行训练，以在给定声学特征C的情况下重建语音波形O.在生成阶段，它们会产生一个从TTS系统中的任一输入文本预测的C或VC中的C。对于TTS和VC，神经声码器都需要高质量，干净，干燥的O和相应的C

但是，在现实生活中捕获的波形通常是由于噪音和混响而受到干扰变差。例如，为了减轻噪声和混响对输入源扬声器的VC系统的语音波形的影响，我们可能首先将语音增强（SE）方法应用于输入波形以进行去噪和去混响。然后，我们可以从增强的信号中提取声学特征，将其转换为目标说话者，并使用经过纯数据训练的神经声码器生成波形

已经提出了许多基于深度学习的SE方法，以从退化的语音中恢复干净的语音。早期研究已提出了许多基于深度学习的SE方法，可以从退化的语音中恢复干净的语音。早期的研究主要集中在基于映射和基于掩码的SE方法。基于映射的SE方法[12、13、14、15]将降级语音的频谱表示映射为纯净语音的频谱表示，而不增强相位频谱。基于屏蔽的SE方法可以预测退化语音和干净语音之间的时频（T-F）屏蔽，一些最新的方法（例如cIRM [16]和RSM [17]）可以同时增强幅度和相位频谱。随后，一些研究人员采用了先进的深度学习模型来直接增强时域中退化的语音[18、19、20、21]。在以前的研究中[18，19]，由WaveNet [22]启发的神经波形模型被用于SE。这种神经波形增强模型直接将降级的语音波形O转换成纯净的语音波形O_clean。显然，这些模型与神经声码器之间存在相似之处和共同之处。这启发了我们设计一个统一的神经声码器，该声码器可以共同对降级的声学特征执行去噪和去混响并生成清晰的语音波形。更具体地说，这种新的声码器有望从有噪声和混响的条件声学特征C （不使用有噪声和混响的语音波形O ）产生干净的语音波形O_clean。该任务不同于纯神经语音编码和SE任务，但是这种联合模型很方便，因为它可以同时执行这两个任务，并且避免了可能传播错误的流水线过程

基于上述动机，我们提出了一种去噪和去混响HiNet（DNR-HiNet）声码器。与原始的HiNet声码器类似，DNR-HiNet声码器分别使用幅度谱预测器（ASP）和相位谱预测器（PSP）预测幅度谱和相位谱，并通过短时傅立叶合成（STFS）重建波形。但是，DNR-HiNet声码器将原始ASP与通道编码器，噪声编码器，混响编码器和降噪后去混响模块相结合，从而使经修改的ASP模块可以根据噪声和混响声学特征预测干净的振幅谱。为了提高生成的音频质量，DNR-HiNet还向修改后的ASP添加了带宽扩展（BWE）模型和频率分辨率扩展（FRE）模型。实验证实，DNR-HiNet声码器的性能优于基线神经声码器。它还显示了在SE任务上使用几种SE方法的竞争性能

3. 其他-容易懂

原始的HINET VOCODER

最近，有人提出了一种具有可训练混响模块的HiNet声码器，以实现更好的混响建模[23]。该模块通过将来自PSP中发生器的波形与室内脉冲响应（RIR）卷积来产生混响波形。然后将来自混响波形的相位谱用于STFS。 RIR由另一个可训练的神经网络预测输入LAS和此RIR预测器与PSP共同训练，方法是最小化生成的和自然混响波形之间的距离。实验结果证实，可以估计RIR，并且混响模块有助于对混响效果进行建模

SLT2021: DENOISING-AND-DEREVERBERATION HIERARCHICAL NEURAL VOCODER FOR ROBUST WAVEFORM GENERATION

0. 题目

1. 摘要

2. 简介

3. 其他-容易懂

4. 其他-不容易懂

猜你喜欢