一. 基于神经网络的波束形成方法
目前在波束形成中引入深度学习的方式,主要有3类:
1. 掩码估计与传统方法的结合(频域)
主要应用神经网络处理传统算法不太容易建模的噪声估计部分。 比如用NN估计语音和噪音各自的掩码,再用该掩码使用传统方法估计噪音的功率谱,后在此基础上使用MVDR或GSC等传统波束形成算法对噪声进行抑制。
优点:对现有系统改动较小,使用比较灵活。
2. 频域预测波束形成权重(频域)
即不保留传统波束形成模块,而通过神经网络直接预测波束形成的权重(复数)。NN预测的权重和多通道的复数频谱相乘后求和得到频域的波束形成结果,在ISTFT得到时域波形。
特点:方法与传统波形形成方法类似,只是求权重采用NN。
3. 时域预测波形形成滤波器系数(时域)
比如FastNet算法,不采用STFT,通过TCN直接提取信号特征,网络输出时域FIR滤波器系数,再和输入语音进行卷积滤波在求和得到最终输出。
特点:与Filter-sum思想类似,但fliter-sum和MVDR和LCMV都是传统的波束形成方法。对于NN,该算法可以在模型权重更少情况下达到和频域算法类似效果。
二. 基于NN波束形成的数据获取
NN训练需要的数据(特征-标签),波束形成数据是指原始的多通道数据和干净的目标语音数据。
数据获取方式:仿真。 通过算法生成的RIR(room impluse response,房间冲击响应)模拟不同混响场景中麦克风阵列和各个声源位置之间的传递函数,然后与干净信号、噪声、干扰信号卷积后得到多通道的音频数据,再加上其他不相干噪声得到训练数据。
缺点:
- 仿真数据的真实性和多样性有所欠缺,模型的泛化性能下降。
- 麦克风阵列的特性与阵型密切相关,阵型约束了数据的类型,很难复用到其他阵型。
基于神经网络进行波束形成属于比较前沿的研究。