动机：

大多数最近的语音增强方法主要集中在采样率为 16K Hz 的宽带信号上。然而，由于难以对更多频段特别是高频分量进行建模，因此仍然缺乏对超宽带（例如，32K Hz）甚至全频段（48K）去噪的研究。

方法：

提出了两个轻量级 DCCRN 子模块，分别用于子带和全带 (SAF) 建模，采用子带处理模块分别对低频段和高频段进行建模。应用全频带处理模块来平滑不同频带的边界。在模型中引入了可学习的频谱压缩（LSC），可以动态调整不同频段的能量。LSC 的使用导致高频段上的图案更加清晰，并且此更新带来了 0.07 的额外 PESQ 增益。受 DPT-FSNet 的编码器/解码器块的启发，在 STFT 之后使用复杂特征编码器 (CFE)，在 iSTFT 之前使用复杂特征解码器 (CFD)。

【语音增强论文解读 08】S-DCCRN: SUPER WIDE BAND DCCRN WITH LEARNABLE COMPLEX FEATURE FORSPEECH ENHANCEMENT

动机：

方法：

猜你喜欢