作者：Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie

文末附文章地址和开源代码地址

1.动机

对DCCRN做了进一步的更新（有不了解DCCRN的小伙伴可以看我先前的文展）。

2.方法

1.将模型扩展到子带处理。

2.用TF-LSTM代替LSTM。

3.使用卷积块聚合编码器的输出，然后再送到解码器。

4.为解码器制定一个先验SNR估计模块，再去除噪声的同时保持良好的语音质量。

5.最后采用post-processing模块进一步抑制不自然的残余噪声。

3.网络架构

DCCRN+的整体网络架构如下图所示：

总体结构与DCCRN类似，但有以下区别：

1.在编码器/解码器之前/之后使用拆分/合并模块进行子带处理。

2) 用于频率和时间尺度时间建模的复杂 TF-LSTM。

3）在馈送到解码器之前，添加Convolution Pathway以更好地聚合来自编码器输出的信息。

4）增加SNR估计模块，以减轻噪声抑制过程中的语音失真。

5）Post-processing以进一步去除残余噪声。

3.1 TF-LSTM模块

TF-LSTM模块设计如下图：

3.2 损失函数

SI-SNR损失用于噪音抑制，还使用MSE损失来指导SNR估计器的学习，总体的损失为：

4.实验

4.1数据集

首先在 DNS-2020 数据集上对提出的模型进行全面的消融实验。然后模型经过训练，与Post-Processing模块集成，并使用 Interspeech 2021 DNS 挑战数据集进行评估，以展示其在更复杂和真实的声学场景中的性能。还将其他竞争模型（如PercepNet）与我们在Voice Bank+DEMAND dataset上的模型进行了比较。

4.2训练策略

窗口长度和帧位移分别为 20ms 和 10ms，FFT 长度为 512。使用 Adam 优化器，初始学习率为 1e-3。当验证集的损失增加时，学习率将以 0.5 的比例衰减。

4.3基线

DCCRN:DCCRN的通道数为{16,32,64,128,256,256}，卷积核和步长设置为(5,2)和(2,1)。采用两层LSTM，节点数为256。LSTM之后有一个1024*256的全连接层。每个编码器模块处理当前帧和前一个帧。在解码器中，最后一层处理一个额外的未来帧，并且每个先前一层都使用当前帧和一个历史帧。

DCCRN+:DCCRN+ 的通道数为 {32,64,128,256}。split-band 模块是一个有 4 个组的组 Conv1D 层。相应地，merge-module 是一个线性层。Complex TF-LSTM模块由一个complex LSTM组成（real 和 imag 部分的单位是 256）和一个complex BLSTM。CLP 模块有 256 个用于实部和虚部的单元。Convolution pathway模块由一个 1 × 1 复杂的 Conv2D 层组成。SNR Estimator 是一个 64 个单元的 LSTM 层，后跟一个具有 3 个内核的 Conv1D 层。其余配置与 DCCRN 相同。

4.4实验结果

表 1 中的结果表明，子带操作可以显着提高速度并减小模型大小。但是基于 FIR 滤波器的子带 DCCRN 模型的 PESQ 与原始 DCCRN 相比有明显的退化。在所提出的神经网络滤波器的帮助下，子带模型的 PESQ 恢复到与 DCCRN 相同的水平，推理速度进一步提高，RTF 为 0.137。在子带 DCCRN（NN 滤波器）中用复杂的 TF-LSTM 代替 LSTM 后，我们获得了显着的 PESQ 改进，而模型变得更大更慢。Convolution pathway和 SNR 估计器的使用带来了进一步的 PESQ 增益，最佳 PESQ 为 3.32，与原始 DCCRN 相比有了明显的改进。

在 Voice Bank + DEMAND 测试集上将 DCCRN+ 的 PESQ 性能与其他竞争模型进行了比较。表 2 中的结果表明，提出的 DCCRN+ 明显优于其他模型，DCCRN+ 在参数更少的情况下大大超过了 PercepNet。

进一步测试了在 DNS-2021 数据集上训练的模型。使用 DNS MOS进行评估——挑战组织者提供的新指标被认为与主观听力分数更相关。从表 3 中可以看出，DNS MOS 随着我们模型上的更新的增加而增加，并且通过使用所有更新（包括post-processor）获得了最高分 3.46。

5.结论

DCCRN+ 的新模型通过可学习的神经滤波器配备子带处理能力，用于频带分割和合并，从而实现紧凑的模型尺寸和加速推理。新模型也更新了 TF-LSTM 和卷积路径。重要的是，在多任务学习框架下，SNR 估计器与解码器一起采用，以在去除噪声的同时保持良好的语音质量。最后采用后处理器去除不自然的残余噪声。实验证明了这些更新的有效性。

文章地址：https://arxiv.org/pdf/2106.08672.pdf

【语音增强论文解读04】DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for SpeechEnhancement