【语音增强论文解读 07】基于UFORMER的单通道语音增强和去混响

作者:Yihui Fu, Yun Liu, Jingdong Li, Dawei Luo, Shubo Lv, Yukai Jv, Lei Xie

1.动机

        近年来,研究者开始尝试采用复数谱,对输入语音频谱的实部和虚部同时进行建模,能够获得更高的理论上限,从而逐渐成为研究的热点方向。但此前的工作没有对这两个域的特征进行联合优化以发掘其潜在的内部联系。由于空间信息的丢失,在单通道场景下的语音去混响充满了挑战。另一方面,从Transformer模型进化而来的Conformer模型因其强大的时序建模能力而在端到端语音识别任务中取得了优异的效果。然而对于语音前端处理模型,不同于语音识别模型,不能只关注时序信息而忽略频带信息,因为不同频带包含不同的能量和信息,需要更精细化的建模方式。因此研究者对自注意力机制进行了双路(Dual-path)改造,即在时频两个维度分别进行注意力机制学习。

2.网路架构

        Uformer包含Encoder、Decoder和Dilated dual-path conformer三个主要的模块。如下图

Encoder通过卷积层的堆叠以学习到语音的高维特征,Decoder通过反卷积层的堆叠以将高维特征映射到与输入相同维度。每层Encoder和Decoder都使用了Hybrid Encoder and Decoder架构来同时进行复数谱和幅度谱的建模和信息融合,每层Encoder和Decoder之间都使用了Encoder Decoder Attention机制来学习到对应层之间的相关性。对于Dilated dual-path conformer,其主要包含四个主要模块:两层全连接层(feed forward, FF)、时序注意力(time attention, TA),频带注意力(frequency attention, FA)和带洞卷积(dilated convolution, DC)。

复数Self Attention:在复数self attention中,将对输入复数特征进行如下式所示的运算以对实部和虚部分别进行注意力机制计算:

Dilated Dual-path Conformer:该模块结构如下图所示。FF模块主要用于特征维度压缩和复原,并使用了半残差连接来避免梯度消失。TA模块通过对当前帧与历史/未来帧信息进行拼接并在时间轴上进行实/复数self attention计算,以建模局部时序特征。FA模块通过对不同频带进行实/复数self attention计算,以建模频率信息。DC模块通过对包含带洞卷积的TCN[12]模型进行改造以进行全局时序特征建模。具体改造方法为将两个带洞卷积的膨胀系数(Dilation)取反以进行不同感受野联合建模。Hybrid Encoder and Decoder:由于Uformer需要同时处理复数谱和幅度谱特征进行建模,因此提出该模块以实现两个域之间的信息交互: 

 Encoder Decoder Attention:传统方法为了防止梯度消失,一般会对对应的Encoder和Decoder层进行跳连(Skip connection)。但认为该方法并不能很好地学习到Encoder和Decoder的相关性信息。因此使用注意力机制来加强建模能力。首先对对应Encoder和Decoder层的输出分别通过实/复数二维卷积以学习到高维特征并进行加和及通过Sigmoid函数,随后通过第三层实/复数二维卷积以学习到Sigmoid mask并作用于原始Decoder层输出上。将该特征与Encoder层输出进行拼接作为下一层Decoder的输入:

 

 3.损失函数

在对模型输出的复数和幅度特征进行融合后,使用对时域SI-SNR、时域L1loss、幅度谱L2loss和复数谱L2loss损失函数联合优化的策略:

4.实验

        在实验中,使用的干净人声数据包括LibriTTS、AISHELL-3、DNS竞赛语音数据和MUSDB的清唱部分,共1050小时。噪声数据包括MUSAN、DNS竞赛噪声数据、MUSDB的音乐部分、MS-SNSD等,共260小时。RIR使用镜像法仿真,RT60范围为0.2至1.2秒。信噪比为-5至15dB。所有训练数据均为动态随机混合生成。测试数据使用与上述数据集同源而无重叠,按[-5,0]、[0,5]和[5,10]三个信噪比区间分别进行仿真。此外还采用Interspeech2021 DNS竞赛官方盲测集作为另一个测试集。使用PESQ、eSTOI、DNSMOS和MOS作为测试指标。

        实验结果如下表所示。Uformer无论在客观指标还是主观听感上均优于所有之前效果突出的复数谱模型(DCCRN、DCCRN+)及时域模型(TasNet[12]、DPRNN[13]),显示了其强大的增强和去混能力。Uformer也获得了与Interspeech2021 DNS竞赛第一名模型SDD-Net几乎一致的效果。但相比SDD-Net多步训练的配置,Uformer的训练实现了完全端到端,过程更简单可控易复现。此外消融实验证明了提出的包括dilated dual-path conformer、hybrid Encoder and Decoder及Encoder Decoder attention在内的所有子模块均有其明显的贡献。

猜你喜欢

转载自blog.csdn.net/qq_41893773/article/details/124401213
今日推荐