[语音增强论文解读 06】Real-time Monaural Speech Enhancement WithShort-time Discrete Cosine Transform

作者:Qinglong Li, Fei Gao, Haixin Guan, and Kaichi Ma

1. 动机

最近,一些研究提出了复值模型并实现了最先进的性能,例如深度复杂卷积循环网络(DCCRN)。但是,模型的计算量很大。

2. 方法

为了降低复杂度并进一步提高性能,在本文中提出了一种使用离散余弦变换作为输入的新方法,称为深度余弦变换卷积循环网络(DCTCRN)。

3. 模型

DCTCRN 模型如下图所示:

3.1 训练目标

在训练阶段,DCTCRN 使用信号逼近方法来估计理想余弦掩模 (ICM)。为了观察掩码范围对模型性能的影响,使用了参数整流线性单元(PReLU,范围是-inf到inf)、Sigmoid(范围是0到1)和Tanh(范围是-1到1)分别作为最后一层的激活函数。将它们命名为 DCTCRN-P、DCTCRN-S 和 DCTCRN-T。

3.2 损失函数

使用SI-SNR作为损失函数

4. 实验

4.1 数据集

使用 ICASSP2021 DNS Challenge 数据集进行模型训练[23],训练集中的干净语音总共 760.53 小时:朗读语音(562.72 小时)、歌声(8.80 小时)、情感数据(3.6 小时)、汉语普通话数据( 185.41 小时)。[24] 中描述了有关干净和嘈杂数据集的详细信息。为了充分利用这些数据,在模型训练期间通过动态混合生成噪声剪辑。具体来说,在每个训练时期,将语音和噪音与从 DNS RIR 数据集中随机选择的不同房间脉冲响应 (RIR) 进行卷积,然后通过在特定 SNR 下混合混响语音和噪声来动态模拟嘈杂的音频。SNR 从 -10dB 到 20dB 随机选择。DNS 中的开发测试集用于选择性能最佳的模型。

在测试阶段,使用图像方法 [25] 生成 10000 个模拟 RIR 作为测试 RIR 集。房间尺寸设置为 5m×4m×3.5m,T60 范围为 0.1:0.1:0.5。麦克风和扬声器的位置在房间内随机分布,高度范围为 1m 至 1.5m。将麦克风和扬声器的距离限制在 0.2m 到 3m。选择 TIMIT 语料库 [26] 作为测试干净的语音,NOISEX-92 [27],并将真实记录的噪音数据集作为测试噪音。现实生活中的记录噪音集中有九种常见噪音:自助餐厅、十字路口、背景音乐、歌曲、公共场所、车内、办公室、白色和火车内。生成两个测试集:混响和非混响测试集。对于混响测试集,首先将每个语音话语与从测试 RIR 集中随机选择的 RIR 进行卷积。然后在每个 SNR (-6dB, -3dB, 0dB, 3dB, 6dB) 处分别将非混响语音和混响语音与一种噪声混合。

5. 实验结果

表一、表二、表三显示了在没有混响的测试集上的客观结果:

表四、表五、表六分别是混响条件下的结果:

        从非混响集的结果中,可以发现 DCTCRN-P 和 DCTCRN-T 在所有指标上都优于 DCCRN-E。DCTCRN-P 实现了最先进的性能,而 DCTCRN-T 非常接近它。DCTCRN-S 和 DCCRNE 产生相似的 PESQ 和 STOI 分数,但 DCTCRN-S 的 SNR 指标比 DCCRN-E 高出近 1dB。显然,PReLU 的范围与 ICM 最接近,网络可以更准确地估计 mask。越符合 ICM 值的范围,语音增强性能越好。

        在混响测试集上,DCTCRN-T 在所有条件下都获得了最好的结果。在混响场景中学习ICM比较困难,Tanh作为激活将掩码范围限制为(-1,1)以降低学习难度。DCTCRN-P 的性能非常接近 DCTCRN-T。在相同的训练和测试条件下,所有 DCTCRN 模型都比 DCCRN-E 好得多。不仅如此,所提出的模型具有更少的参数和计算量。使用 flops-counter.pytorch3 来计算模型的浮点运算 (FLOP) 和参数。结果表明 DCCRN 的计算量几乎是提出的 DCTCRN 的三倍(DCCRN: 120.01M FLOPs, DCTCRN: 41.20M FLOPs)。而且DCCRN和DCTCRN的参数对比是3.98M和2.86M。

6. 结论

        实验结果表明,与DCCRN相比,该模型具有较少的参数,大大减少了计算量,同时提高了性能。

猜你喜欢

转载自blog.csdn.net/qq_41893773/article/details/124258750