MTGAN:通过多任务三元生成对抗性网络对说话人进行验证

MTGAN: Speaker Verification through Multitasking Triplet Generative Adversarial Networks

MTGAN:通过多任务三元生成对抗性网络对说话人进行验证

摘要

在本文中，我们提出了一种增强的三元组方法，它通过联合利用生成对抗机制和多任务优化来改进嵌入的编码过程。我们扩展了具有生成性对抗网络（GAN）和softmax丢失功能的三重编码器。引入GAN是为了增加样本的通用性和多样性，而softmax则用于增强扬声器的功能。为简化起见，我们将我们的方法称为多任务三元组生成对抗网络（MTGAN）。短话语实验表明，MTGAN分别比传统的i-vector方法和最先进的三元组丢失方法将验证等错误率（EER）降低了67％（相对）和32％（相对）。这有效地表明MT-GAN在表达说话者信息的高级特征方面优于三元组方法。

索引术语：生成对抗性网络，说话者验证，三元组丢失

1.简介

自动说话人验证（ASV）是指在给定注册的语音数据库的情况下识别说话者的未知话语的ID的过程。作为一种重要的非接触式生物识别技术，它已被广泛研究[1,2,3,4]。

在过去几年中，ASV领域已形成了i-vector / PLDA的主流[2,5]。然而，大量的工作发现，由深度神经网络（DNN）组成的端到端系统在某些方面超过了传统方法，特别是在短话语条件下。此外，短语的说话人验证具有很大的实用价值，这使我们对DNN方法的研究起到了重要作用。

最近，一些使用DNN的度量学习方法引起了很多关注。三联体损失是其中之一，并且由于FaceNet [6]而在模式识别领域中很受欢迎，这是一种新颖的人脸识别方法。之后，张等人。 [4]将此方法应用于说话人验证。三重方法已被证明是有用的，并且在此基础上改进了大量的工作[7,8,9]。

三重损失的基本思想是最小化类内距离，同时最大化类间距离。从理论上讲，它对所有分类任务都有效，但考虑到有限的训练样本，混响和录音时的环境噪声，三重态丢失对说话人验证的任务有限制。在没有任何指导或限制的情况下，具有香草三联体损失的编码器通常会提取与说话者ID无关的功能，从而导致性能不佳。此外，泛化能力对零射击学习很重要。完全在训练集上训练编码器而没有任何增强，使得三元组方法在测试集上不那么通用。为了解决上述问题，我们建议通过多任务学习和生成对抗性机制来增强三重态损失。

至于我们的架构（如图1所示），除了基本编码器之外，还引入了两个模块。首先，我们在编码器后面添加一个条件GAN。该发生器通过嵌入编码器和随机噪声生成新样本。将编码器与GAN合并类似于[10]和[11]的框架，这证明了它们的优越性。在通过具有噪声的编码器 - 解码器结构之后，新样本在语音上下文和不相关的环境信息方面具有更多的泛化能力和多样性。鉴别器保证了生成的样本的真实性和相似性，而扬声器的特征仍然存在以下限制。分类器将来自生成器和原始数据的样本作为输入。该分类器的最后一层用于softmax损失，其标签是训练集的说话者ID。这样的模块提高了编码器提取扬声器的独特特征的能力。

扫描二维码关注公众号，回复： 4533373 查看本文章

我们在两个不同的数据集上训练和测试我们的方法，以分析算法的可转移性。我们的基线包括i-vector / PLDA系统，softmax方法[3]和三重方法[4]。实验结果表明，我们的算法实现了1.81％的EER和92.65％的准确率，远远优于基线系统。通过更广泛的实验（参见实验部分），我们确认MTGAN比香草三重损失方法更能提取说话者相关的功能。

2.相关作品

2.1深刻的中性网络

d-vector [3]的出现标志着整个DNN框架下ASV系统的诞生。这是ASV领域的一个里程碑，它引领了大量关于DNN的工作。之后，越来越多的作品[12,13,14]实现了与i-vector / PLDA方法一样好的结果。例如，[14]提出了一种卷积时延深度神经网络结构（CT-DNN），并声称它们在短时间语音的情况下比i-vector系统好得多。

在这方面，许多工作都集中在网络结构的调整和新培训技术的使用上。然而，就像ASV这样的零射击任务而言，其训练集和测试集无关紧要，应该提出更合适的方法而不是优化网络结构。 [13]声称只使用像[3]和[14]这样的softmax损失导致测试集上的性能很差，这些测试集与他们的训练集非常不同。

2.2三重度量学习

为了解决零射击问题，在[15]中首次提出了三重态损失。虽然它已经出现了很长时间，但仍有许多后续作品[7,8,9]。

[7]采用多通道方法来增强类内样本的紧密性。 [8]提出了一种四联网结构，以提高测试集上三重态损失的可转移性。像[9]这样的其他一些作品直接修改了距离和边距的定义。灵感来自FaceNet [6]，改进了三重态损失的采样方法，[4]结合三重态损失与ResNet

并首次将其应用于ASV。在此之后，[17]还提出了一种名为TRISTOUNET的结构，用于使用双向LSTM和三重态损耗的组合进行扬声器验证。 [13]提出Deep Speaker来解决与文本相关的任务和与文本无关的任务。 Deep Speaker还证明了预先训练的softmax网络有助于改善三联体方法。

上述方法采用了多种改进方法，但没有一种方法将三重损失与其他多任务方法结合起来。尽管深度扬声器使用预先训练的softmax网络，但在训练过程中只有一个损失项目。

2.3生成性对抗网络

GAN [18]是一个基于博弈论的框架，于2014年提出。经过原始GAN的提议，出现了许多变体[19,20,21,22]，并在许多领域得到广泛应用。

GAN的框架包含两个参与者，一个是生成者，另一个是鉴别者。发生器和鉴别器使用值函数V（G，D）进行以下极小极大游戏：

其中z是为避免模式崩溃而引入的随机噪声。 G（z）是从发生器产生的假样本。等式的第一项表示判别者持有实际样本的概率为真，第二项表示判别者持有假样本的概率为假。

直觉上，GAN通常用于生成任务，但最近有一些使用GAN进行分类任务的工作[10,11]。我们的架构类似于[10]，它将编码器与GAN结合在一起。

GAN的大多数应用都与计算机视觉有关。然而，研究人员最近在语言领域使用了GAN。

[23]和[24]应用GAN去噪和增强声音。 [25]用GAN改进语音识别过程。有些人还将三联体损失与GAN [26,27]结合起来探索新的应用。具体而言，[26]提出了一种三重网络来生成专门用于三重态损失的样本。 [27]建议使用TripletGAN来最小化实际数据和虚假数据之间的距离，同时最大化不同假数据之间的距离。在语音领域，大多数以前使用GAN的工作都是关于数据增强。据我们所知，没有人提议用GAN来增强三重态损失

演讲者验证。

3.多任务三联生成对抗网络

3.1网络架构

图1显示了我们网络的架构。它由四个模块组成，所有模块都已标记为不同的颜色。

•编码器：该模块用于从样本中提取特征。它的最后一个完全连接层输出512维嵌入，表示原始样本的说话者信息。在登记/测试阶段，该嵌入用于计算未知话语和登记话语之间的距离。

•GAN：更具体地说，这是一个带条件架构的GAN。发生器的输入不仅是随机噪声，还包括编码器的嵌入。生成器的输出是假样本，预计看起来像原始样本。鉴别器有两种输入，一种是真实样本，另一种是来自发生器的假样本。

•分类器：同样，我们将假样本和真实样本都提供给分类器模块。该模块的输出是单热矢量，其大小等于训练集中扬声器的数量。

在整个框架中，我们只使用卷积层和完全连接层。所有卷积层的内核大小为5×5，我们也使用批量标准化。 [28]

3.2 损失函数

我们算法的损失函数有四个分量，每个分量都有一个权重系数。第一个是标准三重态损失，已在[4]中详细解释：

3.3三重采样方法

三重态方法的准确性和收敛速度在很大程度上取决于采样方法，这个问题已在[29]中详细讨论过。所有话语之间都有巨大的组合，因此，不可能考虑所有可能性。 [6]提出使用半硬否定探索来对三元组进行采样，[4]遵循它。该方法在一个小批量内搜索三元组对，因此有效且省时。 Deep Speaker [13]也建议在多个GPU上搜索锚负对。

在将随机选择与半硬阴性选择[6]（实验部分的细节）进行比较后，我们发现只要在一个时期使用大量的人，选择方法就无关紧要了。因此，我们在算法中直接使用随机抽样方法。总的来说，我们在一个时期获得n * A * P * K * J三联体对，其中n代表选定的人数，A是锚的数量，P是正数，K是其他类的数量n和N是每个K的负数。

3.4培训网络的详细信息

过滤器，因此输入的维数是128 128.不可否认，GAN很难训练，因为它不稳定，特别是在我们的多任务情况下。像大多数作品一样，我们选择修改[20]提出的DCGAN架构，并利用WGAN-GP最先进的训练技能[22]。培训过程中的一些生成样本如图2所示。

4.实验和讨论

4.1数据集和基线

我们用于训练的数据集是Librispeech [30]，它由“干净”部分和“其他”部分组成。我们仅将“其他”部分用于探索发言人数量影响的实验。测试数据集是TIMIT [31]，因为该数据集涵盖了所有英语音素。我们在不同数据集上进行训练和测试的原因是探索算法的可转移性。在评估设置方面，我们随机选择3个语句进行招生，7个语句进行测试。

我们有四个基线进行比较。其中两个是i-vector系统，另一个是监督的softmax系统[3]，最后一个是三重系统[4]。

4.2性能比较实验

在本节中，我们在相同的实验设置下对我们的方法和基线进行了比较（培训了1252名Lib-rispeech人员），结果显示在表1中。我们使用EER和ACC作为我们的评估标准。 EER评估系统的整体性能，ACC为我们揭示了最佳结果。为了进行更全面的评估，我们绘制了所有五个系统的检测误差折衷（DET）曲线（如图3左侧所示）。

通过表1中的结果，我们总结出三元组方法[4]的确优于i-vector和softmax方法。然而，我们的方法比[4]获得了更好的结果，并且具有更快的收敛速度。通过分析，我们认为简单三元组方法受到特征提取能力的限制，并且数据传输性能较差。在训练后期，[4]的三联体损失接近于零（不过度拟合）。这种现象表明它已达到具有当前特征的说话者验证任务的极限。编码器不仅从扬声器信息中提取特征，还从其他独立因素中提取特征。

4.3相关实验

在本节中，我们进行了更多的消融实验，以证明我们的框架是可行的。不同条件下的结果如表2所示。首先，我们验证了结构中每个模块的必要性。我们一次删除了三个模块，并在相同的设置下进行了实验。结果证明，移除模块后的结构不能像MTGAN那样有效。在三种情况下，分类器的去除影响最大，这意味着softmax损失对于改进特征提取过程非常重要。

然后我们比较了随机抽样方法和[6]提出的半硬阴性方法之间的差异。我们应用的网络架构是Inception-Resnet-v1，我们测试了每个时期选择60和600人最后一个实验是探索训练集中人数的影响。我们将Lib-rispeech的“其他”部分添加到训练集中（总共2484个），并且对具有1252人的那个进行了相同的实验。虽然收敛速度变慢，但EER和ACC在扩大训练集后增加。我们不能不注意一个现象：分类器的输出层与训练扬声器的数量有关。如果我们使用更大的数据集来训练模型，网络的大小将会增加。

5.结论

在这项研究中，我们提出了一种新的端到端文本无关的简短话语验证系统，名为MTGAN。我们利用分类器和生成对抗网络扩展三重态损失，以形成多任务框架。三重丢失设计用于群集，而GAN和softmax丢失有助于提取有关扬声器信息的功能。

实验结果表明，与i-vector方法和三元组方法相比，我们的算法实现了更低的EER和更高的准确性。此外，我们的方法比香草三联方法具有更快的收敛速度。通过更多的消融实验，我们得到其他结论。我们确认软最大损失在提取特征中起着重要作用，在一批选择大量人群的情况下，半硬方法和随机方法之间的差距很小。我们还观察到，正如预期的那样，培训更多人有助于提高绩效。

我们相信这项工作为演讲者验证界提供了更多的想法和灵感，并引入了更多的DNN方法。虽然我们的框架有很大的改进空间，但我们认为我们的实验结果将有助于其他人更清楚地理解说话人验证的任务。

MTGAN:通过多任务三元生成对抗性网络对说话人进行验证

猜你喜欢