作者：Qinglong Li, Fei Gao, Haixin Guan, and Kaichi Ma

1. 动机

最近，一些研究提出了复值模型并实现了最先进的性能，例如深度复杂卷积循环网络（DCCRN）。但是，模型的计算量很大。

2. 方法

为了降低复杂度并进一步提高性能，在本文中提出了一种使用离散余弦变换作为输入的新方法，称为深度余弦变换卷积循环网络（DCTCRN）。

3. 模型

DCTCRN 模型如下图所示：

3.1 训练目标

在训练阶段，DCTCRN 使用信号逼近方法来估计理想余弦掩模 (ICM)。为了观察掩码范围对模型性能的影响，使用了参数整流线性单元（PReLU，范围是-inf到inf）、Sigmoid（范围是0到1）和Tanh（范围是-1到1）分别作为最后一层的激活函数。将它们命名为 DCTCRN-P、DCTCRN-S 和 DCTCRN-T。

3.2 损失函数

使用SI-SNR作为损失函数

4. 实验

4.1 数据集

使用 ICASSP2021 DNS Challenge 数据集进行模型训练[23]，训练集中的干净语音总共 760.53 小时：朗读语音（562.72 小时）、歌声（8.80 小时）、情感数据（3.6 小时）、汉语普通话数据（ 185.41 小时）。[24] 中描述了有关干净和嘈杂数据集的详细信息。为了充分利用这些数据，在模型训练期间通过动态混合生成噪声剪辑。具体来说，在每个训练时期，将语音和噪音与从 DNS RIR 数据集中随机选择的不同房间脉冲响应 (RIR) 进行卷积，然后通过在特定 SNR 下混合混响语音和噪声来动态模拟嘈杂的音频。SNR 从 -10dB 到 20dB 随机选择。DNS 中的开发测试集用于选择性能最佳的模型。

在测试阶段，使用图像方法 [25] 生成 10000 个模拟 RIR 作为测试 RIR 集。房间尺寸设置为 5m×4m×3.5m，T60 范围为 0.1:0.1:0.5。麦克风和扬声器的位置在房间内随机分布，高度范围为 1m 至 1.5m。将麦克风和扬声器的距离限制在 0.2m 到 3m。选择 TIMIT 语料库 [26] 作为测试干净的语音，NOISEX-92 [27]，并将真实记录的噪音数据集作为测试噪音。现实生活中的记录噪音集中有九种常见噪音：自助餐厅、十字路口、背景音乐、歌曲、公共场所、车内、办公室、白色和火车内。生成两个测试集：混响和非混响测试集。对于混响测试集，首先将每个语音话语与从测试 RIR 集中随机选择的 RIR 进行卷积。然后在每个 SNR (-6dB, -3dB, 0dB, 3dB, 6dB) 处分别将非混响语音和混响语音与一种噪声混合。

5. 实验结果

表一、表二、表三显示了在没有混响的测试集上的客观结果：

表四、表五、表六分别是混响条件下的结果：

从非混响集的结果中，可以发现 DCTCRN-P 和 DCTCRN-T 在所有指标上都优于 DCCRN-E。DCTCRN-P 实现了最先进的性能，而 DCTCRN-T 非常接近它。DCTCRN-S 和 DCCRNE 产生相似的 PESQ 和 STOI 分数，但 DCTCRN-S 的 SNR 指标比 DCCRN-E 高出近 1dB。显然，PReLU 的范围与 ICM 最接近，网络可以更准确地估计 mask。越符合 ICM 值的范围，语音增强性能越好。

在混响测试集上，DCTCRN-T 在所有条件下都获得了最好的结果。在混响场景中学习ICM比较困难，Tanh作为激活将掩码范围限制为（-1,1）以降低学习难度。DCTCRN-P 的性能非常接近 DCTCRN-T。在相同的训练和测试条件下，所有 DCTCRN 模型都比 DCCRN-E 好得多。不仅如此，所提出的模型具有更少的参数和计算量。使用 flops-counter.pytorch3 来计算模型的浮点运算 (FLOP) 和参数。结果表明 DCCRN 的计算量几乎是提出的 DCTCRN 的三倍（DCCRN: 120.01M FLOPs, DCTCRN: 41.20M FLOPs）。而且DCCRN和DCTCRN的参数对比是3.98M和2.86M。

6. 结论

实验结果表明，与DCCRN相比，该模型具有较少的参数，大大减少了计算量，同时提高了性能。

[语音增强论文解读 06】Real-time Monaural Speech Enhancement WithShort-time Discrete Cosine Transform