单通道说话人语音分离——DPRNN(Dual-Path Recurrent Neural Network)

参考文献：《DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATION》

DPRNN网络是Con-Tasnet的改进网络

Con-Tasnet介绍详情请看上一篇文章

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

1.背景

近年来，基于深度学习的语音分离的研究证明了时域方法优于传统的基于时频的方法。与时频域方法不同，时域分离系统通常接收由大量时间步长组成的输入序列，这给极长序列的建模带来了挑战。传统的递归神经网络（RNNs）由于优化困难，对如此长的序列建模无效，而一维卷积神经网络（一维CNNs）在其接受域小于序列长度时，无法进行话语级序列建模。

这里提出了双路径递归神经网络（DPRNN），这是一种简单而有效的方法，将RNN层组织成一个深度结构来建模极长的序列。DPRNN将长序列的输入分割成更小的块，并迭代地应用块内和块间的操作，其中输入长度可以与每个操作中原始序列长度的平方根成正比。实验表明，通过用DPRNN替换一维CNN，并在时域音频分离网络（TasNet）中应用样本级建模，WSJ0-2混合模型的性能比之前的最佳系统小20倍。

2.DPRNN模型介绍