【语音增强论文解读04】DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for SpeechEnhancement

作者:Shubo Lv, Yanxin Hu, Shimin Zhang, Lei Xie

文末附文章地址和开源代码地址

1.动机

        对DCCRN做了进一步的更新(有不了解DCCRN的小伙伴可以看我先前的文展)。

2.方法

        1.将模型扩展到子带处理。

        2.用TF-LSTM代替LSTM。

        3.使用卷积块聚合编码器的输出,然后再送到解码器。

        4.为解码器制定一个先验SNR估计模块,再去除噪声的同时保持良好的语音质量。

        5.最后采用post-processing模块进一步抑制不自然的残余噪声。

3.网络架构

        DCCRN+的整体网络架构如下图所示:

        总体结构与DCCRN类似,但有以下区别:

        1.在编码器/解码器之前/之后使用拆分/合并模块进行子带处理。

        2) 用于频率和时间尺度时间建模的复杂 TF-LSTM。

        3)在馈送到解码器之前,添加Convolution Pathway以更好地聚合来自编码器输出的信息。

        4)增加SNR估计模块,以减轻噪声抑制过程中的语音失真。

        5)Post-processing以进一步去除残余噪声。

3.1 TF-LSTM模块

        TF-LSTM模块设计如下图:

3.2 损失函数

        SI-SNR损失用于噪音抑制,还使用MSE损失来指导SNR估计器的学习,总体的损失为:

4.实验

4.1数据集

        首先在 DNS-2020 数据集上对提出的模型进行全面的消融实验。然后模型经过训练,与Post-Processing模块集成,并使用 Interspeech 2021 DNS 挑战数据集进行评估,以展示其在更复杂和真实的声学场景中的性能。还将其他竞争模型(如PercepNet)与我们在Voice Bank+DEMAND dataset上的模型进行了比较。

 4.2训练策略

        窗口长度和帧位移分别为 20ms 和 10ms,FFT 长度为 512。使用 Adam 优化器,初始学习率为 1e-3。当验证集的损失增加时,学习率将以 0.5 的比例衰减。

4.3基线

        DCCRN:DCCRN的通道数为{16,32,64,128,256,256},卷积核和步长设置为(5,2)和(2,1)。采用两层LSTM,节点数为256。LSTM之后有一个1024*256的全连接层。每个编码器模块处理当前帧和前一个帧。在解码器中,最后一层处理一个额外的未来帧,并且每个先前一层都使用当前帧和一个历史帧。

        DCCRN+:DCCRN+ 的通道数为 {32,64,128,256}。split-band 模块是一个有 4 个组的组 Conv1D 层。相应地,merge-module 是一个线性层。Complex TF-LSTM模块由一个complex LSTM组成(real 和 imag 部分的单位是 256)和一个complex BLSTM。CLP 模块有 256 个用于实部和虚部的单元。Convolution pathway模块由一个 1 × 1 复杂的 Conv2D 层组成。SNR Estimator 是一个 64 个单元的 LSTM 层,后跟一个具有 3 个内核的 Conv1D 层。其余配置与 DCCRN 相同。

4.4实验结果

        表 1 中的结果表明,子带操作可以显着提高速度并减小模型大小。但是基于 FIR 滤波器的子带 DCCRN 模型的 PESQ 与原始 DCCRN 相比有明显的退化。在所提出的神经网络滤波器的帮助下,子带模型的 PESQ 恢复到与 DCCRN 相同的水平,推理速度进一步提高,RTF 为 0.137。在子带 DCCRN(NN 滤波器)中用复杂的 TF-LSTM 代替 LSTM 后,我们获得了显着的 PESQ 改进,而模型变得更大更慢。Convolution pathway和 SNR 估计器的使用带来了进一步的 PESQ 增益,最佳 PESQ 为 3.32,与原始 DCCRN 相比有了明显的改进。

        在 Voice Bank + DEMAND 测试集上将 DCCRN+ 的 PESQ 性能与其他竞争模型进行了比较。表 2 中的结果表明,提出的 DCCRN+ 明显优于其他模型,DCCRN+ 在参数更少的情况下大大超过了 PercepNet。

        进一步测试了在 DNS-2021 数据集上训练的模型。使用 DNS MOS进行评估——挑战组织者提供的新指标被认为与主观听力分数更相关。从表 3 中可以看出,DNS MOS 随着我们模型上的更新的增加而增加,并且通过使用所有更新(包括post-processor)获得了最高分 3.46。

5.结论

        DCCRN+ 的新模型通过可学习的神经滤波器配备子带处理能力,用于频带分割和合并,从而实现紧凑的模型尺寸和加速推理。新模型也更新了 TF-LSTM 和卷积路径。重要的是,在多任务学习框架下,SNR 估计器与解码器一起采用,以在去除噪声的同时保持良好的语音质量。最后采用后处理器去除不自然的残余噪声。实验证明了这些更新的有效性。

文章地址:https://arxiv.org/pdf/2106.08672.pdf

开源代码地址:暂无

猜你喜欢

转载自blog.csdn.net/qq_41893773/article/details/124109621