【语音增强论文解读 08】S-DCCRN: SUPER WIDE BAND DCCRN WITH LEARNABLE COMPLEX FEATURE FORSPEECH ENHANCEMENT

动机:

大多数最近的语音增强方法主要集中在采样率为 16K Hz 的宽带信号上。然而,由于难以对更多频段特别是高频分量进行建模,因此仍然缺乏对超宽带(例如,32K Hz)甚至全频段(48K)去噪的研究。

方法:

提出了两个轻量级 DCCRN 子模块,分别用于子带和全带 (SAF) 建模,采用子带处理模块分别对低频段和高频段进行建模。应用全频带处理模块来平滑不同频带的边界。在模型中引入了可学习的频谱压缩(LSC),可以动态调整不同频段的能量。LSC 的使用导致高频段上的图案更加清晰,并且此更新带来了 0.07 的额外 PESQ 增益。受 DPT-FSNet 的编码器/解码器块的启发,在 STFT 之后使用复杂特征编码器 (CFE),在 iSTFT 之前使用复杂特征解码器 (CFD)。

猜你喜欢

转载自blog.csdn.net/qq_41893773/article/details/124614709