利用说话人嵌入实现混响环境下远距离语音的鲁棒说话人识别

Robust Speaker Recognition from Distant Speech under Real Reverberant Environments Using Speaker Embeddings

3.演讲者识别系统

在本节中,我们将描述为我们的实验开发的说话人识别系统。我们使用三种不同的说话人识别系统,包括传统的基于UBM i-vector的系统,基于DNN瓶颈特征的混合对齐框架i-vector系统[21],以及基于DNN扬声器嵌入式系统的先进系统[22,23]。这些系统使用概率线性判别分析(PLDA)后端分类器来计算说话者相似度得分。

所有这三个系统都使用基于DNN的语音活动检测(SAD),其中两个隐藏层分别包含500和1000个节点。使用20维Mel频率倒谱系数(MFCC)特征训练SAD DNN,堆叠31帧。 MFCC是在训练SAD DNN之前在201帧窗口上归一化的均值和方差。在训练和评估中选择语音与非语音帧的阈值为0.5,除了在说话人嵌入提取器DNN训练期间,根据[23]的发现使用阈值-1.5。

3.1.UBM I-Vector系统

这是一个传统的i-vector系统[24],它使用20帧MFCC,帧长为25 ms,步长为10 ms,均值和方差在3秒的滑动窗口内归一化。 MFCC使用增量和双增量进行上下文化,以创建60维特征向量。 通用背景模型(UBM)是与性别无关的2048分量对角协方差高斯混合模型(GMM)。 该系统使用400维i矢量提取器。 对于UBM和i-vector提取器的训练,我们使用了原始的PRISM训练列表,包括降级[25]。

3.2.Hybrid对齐瓶颈I-矢量系统

混合对齐框架基于DNN瓶颈特征,旨在改善基于DNN的说话人识别系统在不同条件下的校准[21]。该框架使用两组特征:用于确定Baum-Welch统计计算中的帧对齐(零阶统计)的第一组特征和用于计算一阶统计的第二组特征。与使用串联MFCC和瓶颈特征相比,通过将瓶颈特征的使用限制为在i矢量提取期间对准标准声学特征,该过程产生了更加稳健校准的基于DNN的系统。

对于这个系统,我们使用DNN BN提取器训练从20维功率归一化倒频谱系数(PNCC)[26]上下文主成分分析离散余弦变换(pcaDCT)[27]与15帧的窗口创建然后使用三秒的滑动窗口对DNN的90维输入进行均值和方差归一化。 DNN经过训练,使用Fisher和Switchboard电话数据区分1933个Senones,由五层1200个节点组成,第四个隐藏层除外,它有80个节点并形成瓶颈提取层。与BN特征和2048分量对角协方差UBM对齐的一阶特征是20维的MFCC,也使用具有60维输出的15帧窗口的pcaDCT进行上下文化。在所有情况下,使用DNN训练数据的子集来学习pcaDCT的主成分分析(PCA)变换。为了训练UBM和i-vector提取器,我们使用了原始的PRISM训练列表,包括降级[25]。该系统还提取了400维i向量。

3.3.DNN扬声器嵌入系统

近年来,DNN的说话者判别训练已被用于从DNN的隐藏层之一中提取说话者特征的低维表示。这种低维表示,丰富的扬声器信息,被称为扬声器嵌入。这些扬声器嵌入式替代了上述系统中使用的i向量。基于DNN的扬声器嵌入已经产生了新的最先进的与文本无关的说话人识别技术,因为它能够推广到看不见的条件[28,22]。

为了训练扬声器嵌入提取器,我们使用了来自PRISM训练列表的非降级子集的52,456个音频文件[25]。然后,我们使用四种不同的降级类型的四个副本来增强这些数据,包括随机选择的音频压缩;随机选择5 dB信噪比(SNR)的乐器音乐;在5 dB SNR下随机选择噪声;以及随机选择具有低混响的混响信号。这次扩充导致共有891,752个分段来自3,296个发言人,用于培训嵌入式提取器。关于该系统的更多细节可以在[23]中找到,其中系统表示为原始+ CNLRMx4。

3.4.概率线性判别分析(PLDA)分类器

我们使用与性别无关的概率线性判别分析(PLDA)[29]来计算说话人识别系统的得分。来自这些系统(i-vector或扬声器嵌入)的固定维扬声器表示使用线性判别分析(LDA)进一步转换为200维,然后进行长度归一化和平均居中[30]。为了训练PLDA模型和LDA,我们使用了完整的PRISM训练列表,其中包括噪声和混响降级。其他转码数据被添加到此PLDA训练数据中[3]。

这里需要注意的一点是,i-vector提取器(UBM / T)被训练到原始的PRISM列表,因为它对扩充没有很好的反应[22],而DNN嵌入式拖拉机在原始PRISM列表上进行了训练16倍增加。我们的假设是,每个i-vector系统都是在很长一段时间内开发出来的,具有不同类型的训练数据,我们根据来自众多研究团队的文献,使用了最常见的训练集集合。这并不意味着它是最佳的训练集,而是社区在多年的i-vector研究中确定的一套。

4.实验评估

在本节中,我们对SRI远程语音收集和VOICES数据集中描述的每个说话人识别系统进行基准测试。 我们还分析了麦克风距离和位置,背景噪声和扬声器方向对扬声器识别系统

性能的影响。 我们以相等的错误率(EER)百分比来报告我们的结果。

 

4.1.评估协议

来自SRI远程语音收集数据集的音频文件基于SAD输出被切割成20秒的块,然后用于登记和验证。 我们对来自源数据的单个20秒音频切换进行了登记,并在单个20秒切割时验证了放置在不同位置的不同麦克风。 对于VOICES数据集,注册/测试段长度为14秒,语音密集。

4.2.标记结果

首先,我们通过UBM-IV,Hybrid-IV和扬声器嵌入系统上的SRI远程语音收集和VOICES数据集,展示不同房间的基准测试结果。 我们报告在计算EER之前,每个房间和每个语料库的单个错误率(EER)的单个测量值汇集了来自所有麦克风的试验。 对源数据进行了注册,并对远程语音进行了测试。 虽然VOICES数据集包含各种干扰物声音,但在本节中我们仅报告不包含背景噪声的数据子集。 这些结果总结在图2中。

我们观察到,基于扬声器嵌入的系统在混响条件以及源数据集中始终优于基于i-vector的系统。 对于不同的房间,SRI远程语音收集的基线系统的相对增益范围为47%至54%。

4.3.麦克风距离和位置的影响

接下来,我们将在表3中展示麦克风距离和扬声器放置影响的结果。我们观察到,在这种情况下,基于扬声器嵌入的系统也大大优于基于i-vector的系统。 等误差率随距离增加而增加。 值得注意的是,隐藏式麦克风(例如桌下麦克风)对扬声器识别系统构成了重大挑战。

5.结论

我们研究了远程语音对说话人识别系统性能的影响。 这项工作中使用的语料库是在实际的混响室中收集的,而不是通过软件模拟创建的。 我们对两个不同数据集上的三个说话人识别系统的性能进行了基准测试。 我们观察到基于扬声器嵌入的说话人识别系统比基于i-vector的系统获得了非常可观的收益。

 

猜你喜欢

转载自blog.csdn.net/weixin_38858860/article/details/83959134