动机:
大多数最近的语音增强方法主要集中在采样率为 16K Hz 的宽带信号上。然而,由于难以对更多频段特别是高频分量进行建模,因此仍然缺乏对超宽带(例如,32K Hz)甚至全频段(48K)去噪的研究。
方法:
提出了两个轻量级 DCCRN 子模块,分别用于子带和全带 (SAF) 建模,采用子带处理模块分别对低频段和高频段进行建模。应用全频带处理模块来平滑不同频带的边界。在模型中引入了可学习的频谱压缩(LSC),可以动态调整不同频段的能量。LSC 的使用导致高频段上的图案更加清晰,并且此更新带来了 0.07 的额外 PESQ 增益。受 DPT-FSNet 的编码器/解码器块的启发,在 STFT 之后使用复杂特征编码器 (CFE),在 iSTFT 之前使用复杂特征解码器 (CFD)。