深度神经网络,适用于小型脚本文本相关的语音验证

DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION

d-ivector系统优于i-ivector系统。

我们还尝试了DNN培训的不同配置。如果没有maxout和dropout技术,训练有素的DNN的EER绝对差2%左右。在隐藏层中将节点数量增加到512并没有太大帮助,而将节点数量减少到128则使得EER更差,为7.0%。将上下文窗口大小重置为左侧10帧,右侧5帧也将EER性能降低至5.67%。

4.3.报名数据的影响

在d-vector SV系统中,在注册阶段没有涉及说话者适应统计数据。 相反,后台DNN模型用于在登记和评估阶段为每个话语提取说话者特定的特征。 在本实验中,我们研究了d-vector系统中验证性能的变化,每个发言者的入学话语数不同。 我们使用4,8,12和20个话语比较演讲者注册的表现结果。

EER结果列于表2中。它表明,随着入学人数的增加,两个SV系统的表现都会更好。 两种系统的趋势相似。

 

4.4.增强稳健性

实际上,开发和运行时条件之间通常存在不匹配。 在本实验中,我们研究了d-ivectorSV系统在噪声条件下的鲁棒性,并将其与i-vector系统进行了比较。 使用干净的数据训练背景模型。 10 dB自助餐厅噪声被添加到登记和评估数据中。 DET曲线的比较显示在图2的右图中。如该图所示,两个系统的性能因噪声而降低,但d-ivector系统的性能损失较小。 在10 dB噪声环境下,d-ivector系统的整体性能非常接近i-vector系统。 在2%或更低的假拒绝概率的操作点,d-ivector系统实际上比i-矢量系统更好。

在特征层面设计,我们在图3中的初步结果是使用一个名为sum fusion的简单组合获得的,该组合对每个试验的每个系统提供的分数求和。 先前的t-norm阶段应用于两个系统,以促进分数的组合。 结果表明,组合系统在基本上所有可能的操作点和噪声条件下都优于组件系统。 在EER性能方面,i / d-ivector系统分别在干净和嘈杂的条件下击败i-vector系统14%和25%相对。

5.结论

在本文中,我们提出了一种新的基于DNN的说话人验证方法,用于小型文本相关的说话人验证任务。 DNN经过培训,可以对具有帧级声学特征的说话人进行分类。训练有素的DNN用于提取说话者特定的功能。然后,与流行的i-vector类似,这些说话人特征或d-vector的平均值用于说话者验证。实验结果表明,与i-vector系统相比,d-ivector的SV系统的性能相当不错,系统融合比独立的i-vector系统获得了更好的结果。这两个系统的简单和融合可以改善所有工作点的i-ivector系统性能。在干净和嘈杂的条件下,组合系统的EER分别比我们的经典i-vector系统好14%和25%。此外,d-ivector系统对登记和评估数据中的加性噪声​​更稳健。在低假拒绝操作点处,d-ivector系统优于i-ivector系统。

未来的工作包括改进当前余弦距离得分,以及尝试归一化方案,如原始分数的高斯化。我们将探索不同的组合方法,例如在i-ivector的特征空间和堆叠的d-ivector上使用PLDA模型。最后,我们的目的是研究增加开发说话人数量的效果以及说话人群集如何影响性能。

猜你喜欢

转载自blog.csdn.net/weixin_38858860/article/details/83960822