作者:Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie
文末附文章地址和开源代码地址
1.动机
对DCCRN做了进一步的更新(有不了解DCCRN的小伙伴可以看我先前的文展)。
2.方法
1.将模型扩展到子带处理。
2.用TF-LSTM代替LSTM。
3.使用卷积块聚合编码器的输出,然后再送到解码器。
4.为解码器制定一个先验SNR估计模块,再去除噪声的同时保持良好的语音质量。
5.最后采用post-processing模块进一步抑制不自然的残余噪声。
3.网络架构
DCCRN+的整体网络架构如下图所示:
总体结构与DCCRN类似,但有以下区别:
1.在编码器/解码器之前/之后使用拆分/合并模块进行子带处理。
2) 用于频率和时间尺度时间建模的复杂 TF-LSTM。
3)在馈送到解码器之前,添加Convolution Pathway以更好地聚合来自编码器输出的信息。
4)增加SNR估计模块,以减轻噪声抑制过程中的语音失真。
5)Post-processing以进一步去除残余噪声。
3.1 TF-LSTM模块
TF-LSTM模块设计如下图:
3.2 损失函数
SI-SNR损失用于噪音抑制,还使用MSE损失来指导SNR估计器的学习,总体的损失为:
4.实验
4.1数据集
首先在 DNS-2020 数据集上对提出的模型进行全面的消融实验。然后模型经过训练,与Post-Processing模块集成,并使用 Interspeech 2021 DNS 挑战数据集进行评估,以展示其在更复杂和真实的声学场景中的性能。还将其他竞争模型(如PercepNet)与我们在Voice Bank+DEMAND dataset上的模型进行了比较。
4.2训练策略
窗口长度和帧位移分别为 20ms 和 10ms,FFT 长度为 512。使用 Adam 优化器,初始学习率为 1e-3。当验证集的损失增加时,学习率将以 0.5 的比例衰减。
4.3基线
DCCRN:DCCRN的通道数为{16,32,64,128,256,256},卷积核和步长设置为(5,2)和(2,1)。采用两层LSTM,节点数为256。LSTM之后有一个1024*256的全连接层。每个编码器模块处理当前帧和前一个帧。在解码器中,最后一层处理一个额外的未来帧,并且每个先前一层都使用当前帧和一个历史帧。
DCCRN+:DCCRN+ 的通道数为 {32,64,128,256}。split-band 模块是一个有 4 个组的组 Conv1D 层。相应地,merge-module 是一个线性层。Complex TF-LSTM模块由一个complex LSTM组成(real 和 imag 部分的单位是 256)和一个complex BLSTM。CLP 模块有 256 个用于实部和虚部的单元。Convolution pathway模块由一个 1 × 1 复杂的 Conv2D 层组成。SNR Estimator 是一个 64 个单元的 LSTM 层,后跟一个具有 3 个内核的 Conv1D 层。其余配置与 DCCRN 相同。
4.4实验结果
表 1 中的结果表明,子带操作可以显着提高速度并减小模型大小。但是基于 FIR 滤波器的子带 DCCRN 模型的 PESQ 与原始 DCCRN 相比有明显的退化。在所提出的神经网络滤波器的帮助下,子带模型的 PESQ 恢复到与 DCCRN 相同的水平,推理速度进一步提高,RTF 为 0.137。在子带 DCCRN(NN 滤波器)中用复杂的 TF-LSTM 代替 LSTM 后,我们获得了显着的 PESQ 改进,而模型变得更大更慢。Convolution pathway和 SNR 估计器的使用带来了进一步的 PESQ 增益,最佳 PESQ 为 3.32,与原始 DCCRN 相比有了明显的改进。
在 Voice Bank + DEMAND 测试集上将 DCCRN+ 的 PESQ 性能与其他竞争模型进行了比较。表 2 中的结果表明,提出的 DCCRN+ 明显优于其他模型,DCCRN+ 在参数更少的情况下大大超过了 PercepNet。
进一步测试了在 DNS-2021 数据集上训练的模型。使用 DNS MOS进行评估——挑战组织者提供的新指标被认为与主观听力分数更相关。从表 3 中可以看出,DNS MOS 随着我们模型上的更新的增加而增加,并且通过使用所有更新(包括post-processor)获得了最高分 3.46。
5.结论
DCCRN+ 的新模型通过可学习的神经滤波器配备子带处理能力,用于频带分割和合并,从而实现紧凑的模型尺寸和加速推理。新模型也更新了 TF-LSTM 和卷积路径。重要的是,在多任务学习框架下,SNR 估计器与解码器一起采用,以在去除噪声的同时保持良好的语音质量。最后采用后处理器去除不自然的残余噪声。实验证明了这些更新的有效性。