SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS论文翻译

基于深度循环神经网络（DRNN）的单通道音乐人声分离

ABSTRACT

单声道源分离对于许多现实世界的应用是重要的。由于只有单一频道信息可用，因此具有挑战性。在本文中，我们探索使用深度递归神经网络在监督环境中从单声道录音中分离歌声。深入研究了具有不同时序神经网络。我们建议通过将分离步骤包括在最后一层中作为非线性操作来联合优化多个源信号的网络。进一步探讨了不同的判别训练目标，以提高源干扰比。与之前的型号相比，我们提出的系统在MIR-1K数据集上实现了最先进的性能，2.30⇠2.48dB GNSDR增益和4.32⇠5.42dB GSIR增益。

INTRODUCTION

单声道源分离对于几个实际应用非常重要。例如，通过将噪声与语音信号分离，可以提高自动语音识别（ASR）的准确性[10]。将歌唱声音与音乐分离，可以提高和弦识别和音高估计的准确性[7]。然而，目前最先进的成果仍远远落后于人类的能力。单声道源分离的问题更具挑战性，因为只有单声道信息可用。

本文主要研究单声道录音中的声音分离问题。最近，人们提出了几种方法，分别利用音乐和语音信号的低秩和稀疏性假设[7,13,16,17]。然而，这种强有力的假设可能并不总是正确的。例如，鼓声可能位于稀疏的子空间，而不是低阶。此外，所有这些模型都可以看作是光谱域中的线性变换。

随着深度学习的发展，在不施加附加约束的情况下，我们可以通过使用多个非线性层进一步扩展模型的可表达性，并从数据中学习最优的隐藏表示。在本文中，我们探讨了深层循环神经网络在有监督的环境下用于歌唱声音与单耳录音的分离。我们探讨了不同的深度递归神经网络结构，以及网络的联合优化和软掩蔽函数。此外，还探索了不同的训练目标来优化网络。框架如图1所示。

本文的组织结构如下：第二节论述了与前人工作的关系。第三节介绍了所提出的方法，包括深度递归神经网络、深度学习模型的联合优化和软时频掩蔽函数，以及不同的训练目标。第4节介绍了使用MIR-1K数据集的实验设置和结果。第5部分我们总结了论文。

RELATION TO PREVIOUSWORK

以前的几种方法分别利用音乐信号和语音信号的低阶和稀疏性的限制来完成歌唱语音分离任务[7,13,16,17]。对于这些信号的强烈假设可能并不总是正确的。此外，在分离阶段，这些模型可以看作一个单层线性网络，通过线性变换预测干净的光谱。为了进一步提高这些线性模型的可表达性，本文采用深度学习模型从数据中学习表示，而不强制使用低阶和稀疏约束。

深度递归神经网络（DRNN）架构：箭头表示连接矩阵。黑色，白色和灰色圆圈分别表示输入帧，隐藏状态和输出帧。（左）：标准的复发神经网络; （中）：L中间层DRNN，在第l层具有重复连接。（右）：L中间层DRNN，在所有级别具有重复连接（称为堆叠RNN）。

通过深入研究体系结构，深度学习方法能够在不同的数据抽象级别上发现隐藏的结构和特性[5]。深度学习方法已被应用于各种应用，并已达到了预期结果的状态[2,4,8]。最近，深度学习技术已经被应用到相关的任务中，如语音增强和理想的二进制掩模估计[1,9–11,15]。

在理想二元掩模估计任务中，Narayanan和Wang[11]以及Wang和Wang[15]提出了一个使用深度神经网络的两阶段框架。在第一阶段，作者使用d神经网络分别预测每个输出维度，其中d是目标特征维度;在第二阶段，分类器（一层感知器或SVM）用于在给定第一级输出的情况下重新确定预测。但是，当输出维度很高时，提议的框架不可扩展。例如，如果我们想要使用光谱目标，我们将有1024个FFT的513维度。训练如此大量的神经网络是不太可取的。此外，相邻频率的神经网络之间存在许多冗余。在我们的方法中，我们提出了一个通用框架，可以使用一个神经网络同时联合预测所有特征维度。此外，由于预测的输出通常由时频掩蔽函数平滑，我们探索联合训练掩蔽函数与网络。

Maasetal。提出使用深度RNN进行稳健的自动语音识别任务[10]。给定噪声信号x，作者应用DRNN来学习干净的语音y。在源分离场景中，我们发现，与模拟所有源的框架相比，在去噪框架中对一个目标源进行建模是次优的。此外，我们可以使用来自不同预测输出的信息和约束来进一步执行掩蔽和判别训练。

PROPOSED METHODS

为了捕获音频信号之间的上下文信息，一种方法是将相邻特征连接在一起作为深度神经网络的输入特征。但是，参数的数量根据输入维度迅速增加。因此，连接窗口的大小是有限的。可以将递归神经网络（RNN）视为具有无限多层的DNN，其引入来自先前时间步骤的存储器。RNN的潜在弱点是RNN在当前时间步骤缺乏输入的分层处理。为了通过多个时间尺度进一步提供分层信息，探索了深度递归神经网络（DRNN）[3,12]。可以在不同的方案中探索DRNN，如图2所示。图2的左侧是标准RNN，及时折叠。图2的中间是L中间层DRNN，在第l层具有时间连接。图2的右侧是具有全时间连接的L中间层DRNN（在[12]中称为堆叠RNN（sRNN））。

在形式上，我们可以如下定义不同的DRNN方案。假设存在L中间层DRNN，其在第l层具有循环连接，则在时间t处的第l个隐藏激活被定义为：

输出yt可以定义为：

其中xt是时间t的网络输入，l是元素非线性函数，W1是第l层的权重矩阵，U1是第l层的循环连接的权重矩阵。输出层是线性层。

堆叠的RNN具有多级转换功能，详细说明如下：

其中hl t是时间t的第l层的隐藏状态。 U1和W1分别是在时间t1和较低水平激活h-11t处的隐藏激活的权重矩阵。当l = 1时，使用h0 t = xt计算隐藏激活。

函数l（·）是一个非线性函数，我们凭经验发现，与使用sigmoid或tanh函数相比，使用整数线性单位f（x）= max（0，x）[2]表现更好。对于DNN，时间权重矩阵U1是零脉冲。

Model Architecture

在时间t，网络的训练输入xt是来自窗口中的混合的特征的级联。我们使用幅度谱作为本文的特征。网络的输出目标y1t和y2t以及输出预测y 1t和y 2t是不同源的幅度谱。

由于我们的目标是将其中一个来源与混合物分开，而不是将其中一个来源作为目标，我们调整[9]的框架来同时模拟所有不同的来源。图3显示了该体系结构的一个示例。

此外，我们发现利用时频掩蔽技术进一步平滑源分离结果是有用的，例如二进制时频掩蔽或软时频掩蔽[7,9]。时频屏蔽功能强制执行预测结果的总和等于原始混合的约束。

给定混合中的输入特征xt，我们通过网络获得输出预测y 1t和y 2t。软时频掩模mt的定义如下：

f代表不同的序列

一旦计算出时频掩模mt，就将其应用于混合信号的幅度谱zt，以获得估计的分离光谱1t和2t，其对应于源1和2，如下：...

时频屏蔽功能也可以视为神经网络中的一层。我们可以将深度学习模型与时频掩蔽函数联合训练，而不是训练网络并将时频掩蔽分别应用于结果。在神经网络的原始输出中添加一个额外的图层：

其中运算符是元素乘法（Hadamard乘积）。通过这种方式，我们可以将约束集成到网络中并共同使用屏蔽功能优化网络。注意，尽管该额外层是确定性层，但是使用反向传播针对y~1t，y~2t和y1t，y2t之间的误差度量优化网络权重。为了进一步平滑预测，我们可以将掩蔽函数应用于y~1t和y~2t，如公式1所示。（4）和（5），得到估计的分离谱~s 1t和〜s 2t。基于估计的幅度谱的逆短时傅里叶变换（ISTFT）以及原始混合相位来重建时域信号。

Training Objectives

给定原始源y1t和y2t的输出预测y 1t和y 2t（或y〜1t和y〜2t），我们通过最小化平方误差和广义Kullback-Leibler（KL）发散标准来探索优化神经网络参数，如下：

当Pi Ai = Pi Bi = 1时，D（·k·）减小到KL发散，可以将A和B视为概率分布。

此外，最小化Eqs。（7）和（8）用于增加预测和目标之间的相似性。由于源分离问题的目标之一是具有高信号干扰比（SIR），我们探索的是区分目标函数，不仅增加了预测与其目标之间的相似性，而且降低了预测与预测和其他来源的目标之间的相似性。如下：

γ 伽马是由开发集上的性能选择的常量。

EXPERIMENTS
我们的系统使用MIR-1K数据集[6]进行评估.1千首歌曲片段的采样率为16 KHz，持续时间为4到13秒。剪辑是从男性和女性业余爱好者的110首中文卡拉OK歌曲中提取的。有清音轮廓的歌词轮廓，歌词，索引和类型的手动注释，以及声乐和非声乐帧的索引。请注意，每个剪辑包含不同频道中的歌声和背景音乐。我们的实验中只使用了歌声和背景音乐。

根据[13,17]中的评估框架，我们使用由一名男歌手和一名女歌手（'abjones'和'amy'）演唱的175个片段作为训练和开发组.2剩余的825个17sin的片段用于测试。对于每个片段，我们将歌声和背景音乐以相同的能量（即0dBSNR）混合。目标是将歌声与背景音乐分开。

为了定量评估源分离结果，我们使用源干扰比（SIR），源与伪像比（SAR）和源与失真比（SDR）的BSS-EVAL 3.0度量[14]。标准化SDR（NSDR）定义为：

其中v是重新合成的歌声，v是原始干净的歌声，x是混合。NSDR用于估计预处理混合物x和分离的歌声之间的SDR的改善，我们通过全球NSDR（GNSDR），全球SIR（GSIR）和全球SAR（GSAR）报告整体表现，它们分别是NSDR，SIR和SAR的加权平均值，而不是按长度加权的所有测试片段。SDR，SAR和SIR的高优先级代表更好的分离质量。在SR中反映了干扰源的抑制。分离过程引入的伪像在SAR中反映出来。整体表现反映在SRS上。

为了训练网络，为了增加训练样本的种类，我们循环移动（在时域中）歌声信号并将它们与背景音乐混合。

在实验中，我们使用幅度谱作为神经网络的输入特征，使用具有50％重叠的1024点短时傅立叶变换（STFT）来提取频谱表示。根据经验，我们发现使用log-mel滤波器功能或记录功率谱提供了更差的性能。

对于我们提出的神经网络，我们通过相对于训练目标反向传播梯度来优化我们的模型。有限记忆的Broyden-Fletcher Goldfarb-Shanno（L-BFGS）算法用于训练随机初始化的模型。我们将最大纪元设置为400，并根据开发集选择最佳模型。这个工作的声音示例和更多细节可以在线获得

Experimental Results

在本节中，我们从几个方面比较不同的深度学习模型，包括不同输入上下文大小的影响，不同循环移位步的影响，不同输出格式的影响，不同深度递归神经网络结构的影响，以及区分训练目标的结果。

为简单起见，除非明确提及，否则我们使用3个隐藏层，1000个隐藏单元神经网络，使用均方误差标准，联合掩蔽训练和10K样本作为循环移位步长，使用上下文窗口大小为3的特征报告结果帧。我们将DRNN-k表示为具有第k个隐藏层处的循环连接的DRNN。我们根据开发集上的GNSDR结果选择模型。

首先，我们探讨使用单帧特征的情况，以及将相邻1和2帧连接起来的情况（上下文窗口大小分别为1,3和5）。表1使用具有上下文窗口大小1,3和5的DNN报告结果。我们可以观察到，与其他情况相比，连接相邻的1帧提供了更好的结果。因此，我们在以下实验中将上下文窗口大小设置为3。

表2显示了深度神经网络的不同循环移位步长之间的差异。我们探索没有循环移位和步长为{50K，25K，10K}样本的循环移位的情况。我们可以观察到，当训练样本的数量增加时（即，循环移位的步长减小），分离性能得到改善。

表3显示了不同输出层格式的结果。我们使用单个源作为目标（第1行）并使用两个源作为输出层（第2行和第3行）中的目标进行比较。我们观察到同时建模两个源可以提供更好的性能。比较表三第2行和第3行，我们观察到使用共同掩频训练进一步改善了结果。我们观察到同时建模两个源可以提供更好的性能。

表4显示了不同深度递归神经网络架构（DNN，具有不同循环连接的DRNN和sRNN）的结果以及不同目标函数的结果。我们可以观察到，与具有均方误差目标的模型相比，具有广义KL散度的模型提供更高的GSAR，但是GSIR更低。两个目标函数都提供类似的GNSDR。两个目标函数都提供类似的GNSDR。对于不同的网络架构，我们可以观察到在第二个隐藏层处具有重复连接的DRNN提供了最佳结果。此外，与DNN模型相比，所有DRNN模型通过利用时间信息获得了更好的结果。

表5显示了具有和不具有判别训练的不同深度递归神经网络架构（DNN，具有不同复发连接的DRNN和sRNN）的结果。我们可以观察到，辨别训练改善了GSIR，但降低了GSAR。总体而言，GNSDR略有改善。

最后，我们将我们的最佳结果与同一设置下的其他先前工作进行比较。表6显示了无监督和监督设置的结果。与RNMF模型相比，我们提出的模型实现了2.30⇠2.48dB GNSDR增益，4.32⇠5.42dB GSIR增益和类似的GSAR性能[13]。分离结果的一个例子如图4所示。

CONCLUSION AND FUTURE WORK

在本文中，我们探索使用深度学习模型从单声道录音中唱出声音分离。具体来说，我们探索不同的深度学习架构，包括深度神经网络和深度递归神经网络。我们通过与网络联合优化软掩模功能并探索判别性训练标准，进一步增强了结果。总体而言，与先前提出的方法相比，我们提出的模型实现了2.30⇠2.48dB的GNSDR增益和4.32⇠5.42dB的GSIR增益，同时保持了类似的GSAR。我们提出的模型也可以应用于许多其他应用，例如主旋律提取。

SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS论文翻译

猜你喜欢