一种利用语音深度神经网络进行语音识别的新方案

A NOVEL SCHEME FOR SPEAKER RECOGNITION USING A PHONETICALLY-AWARE DEEP NEURAL NETWORK

Yun Lei Nicolas Scheffer Luciana Ferrer Mitchell McLaren

美国加利福尼亚州SRI国际语音技术与研究实验室
{云雷纹,夏侯雅伯,lferrer,米奇}@ speech.sri.com

一种利用语音深度神经网络进行语音识别的新方案

Yun Lei Nicolas Scheffer Luciana Ferrer Mitchell McLaren

 

美国加利福尼亚州SRI国际语音技术与研究实验室

{云雷纹,夏侯雅伯,lferrer,米奇}@ speech.sri.com

摘要

我们提出了一种新的说话人识别框架,其中为最先进的i-矢量模型提取足够的统计数据是由训练用于自动语音识别(ASR)的深度神经网络(DNN)驱动的。 具体而言,DNN取代标准高斯混合模型(GMM)以产生帧对齐。 在说话人识别管道中使用ASR-DNN系统很有吸引力,因为它将来自语音内容的信息直接集成到统计中,使标准后端保持不变。 在根据2012年NIST说话人识别评估(SRE)的电话条件进行评估时,与最先进系统相比,所提出的框架的改进在相同错误率下具有30%的相对性。 拟议的框架是有效利用转录数据进行说话人识别的成功方法,从而开辟了广泛的研究方向。

索引术语 - 深度神经网络,说话人识别

1.简介

 

最近,说话人验证社区已经看到了成功应用i-vector提取范例的准确性显着提高[1]。该框架可以分解为三个连续阶段:足够的统计数据的收集,i向量的提取和概率线性判别分析(PLDA)后端。收集足够的统计数据是一个过程,其中一系列特征向量(例如,梅尔频率倒谱系数(MFCC))由关于GMM获得的Baum-Welch统计量表示,称为通用背景模型(UBM) 。这些统计数据是高度维度的,并且被转换为单个低维特征向量 - 一个i向量 - 表示关于说话者的重要信息以及给定语音段中的所有其他类型的可变性。一旦提取了i向量,然后使用PLDA模型通过比较从不同话语中提取的i向量来产生验证分数[2]。

在语音识别领域,深度神经网络(DNN)最近已成功用于声学建模,与标准GMM模型相比实现了大幅改进[3,4]。 DNN是一个标准的前馈神经网络,它比传统的神经网络都要大得多(每个隐藏层几千个节点)和更深(大约5-7个隐藏层)。标准判别反向传播算法和随机梯度下降方法通常用于DNN训练。

虽然DNN在其他语音相关领域的应用是直截了当的(DNN的每个输出节点代表感兴趣的类别之一),但直接过渡到说话人识别更具挑战性,因为在系统训练期间,扬声器通常是未知的每个发言者的训练数据都很少。

我们的工作旨在使用经过语音识别培训的DNN来指导说话人建模,特别是通过使用输出后验作为用于说话人建模和i向量提取的帧对齐,替代UBM在标准框架中的作用。我们对语音识别模型的使用是由于语音内容对语音信号的影响在与文本无关的说话者验证工作中被忽略的事实。以前对电话,音节或词依赖的GMM系统[5,6,7,8]或约束系统[9]的研究已经显示出前景,但由于它们的复杂性和它们提供的准确性的微小改进而未被广泛采用,即使在与基线系统结合后也是如此。内容感知系统有效地利用转录数据,为说话人识别的研究和改进开辟了广泛的可能性。

在这项工作中,DNN取代了GMM,以计算模型中每个类的帧的后置。而在GMM的情况下,类是来自混合模型的单个高斯,在DNN的情况下,类是使用标准决策树获得的用于自动语音识别的senone(绑定三音素状态)。一旦计算了后验,在将它们输入最先进的范例i-vector / PLDA之前,以标准方式计算第零和第一阶统计量。我们提出的方法的一个有吸引力的好处是用于帧对齐的特征和足够的统计数据可以是不同的,因为这两个过程现在有效地解耦。结果,系统可以使用最佳特征来最大化帧对准的电话识别精度,同时使用用于说话者

识别的最佳特征来计算用于获得i向量和最终说话者验证分数的足够统计。

我们首先介绍i-vector模型,然后简要强调UBM在说话人识别中的作用。然后,我们在介绍结果和结论之前描述我们的DNN方法。

猜你喜欢

转载自blog.csdn.net/weixin_38858860/article/details/83998669