微软说话人识别工具箱(MSR Identity Toolbox)应用与实践教程

微软说话人识别工具箱1 (MSR Identity Toolbox) 是由微软研究院开源的声纹识别工具，使用 MATLAB 语言编写。主要包含了 GMM-UBM 和 I-Vector 两种声纹识别核心算法源代码以及说明文档，但是并不涉及特征提取、语音端点检测 (Voice Activity Detection, VAD) 等内容，对于初学者来说想要使用该工具箱训练自己的模型并建立起完整的声纹识别系统并不是一件容易的事情。

本教程并不涉及详细的理论知识推导，以应用实践为主。其主要目的是为了学会灵活地使用该工具箱，可以根据自己的实际需求进行模型训练，并建立一套完整的声纹识别系统 (特征提取-> 模型训练-> 说话人识别-> 模型评估)。主要包括以下内容：

1) 语音端点检测 (VAD)

2) MFCC 特征提取

3) 基于 GMM-UBM 算法的声纹识别

4) 基于 I-Vector 算法的声纹识别

5) 模型性能评估

6) 小内存 PC 训练大量数据

为了便于理解，以上所有过程均是利用 Matlab 代码完成。以 MSR Identity Toolbox 的代码为核心，添加了部分其它 Matlab 代码，并对每一个步骤进行详细地说明。同时，由于 Matlab 语言十分容易理解、操作便捷，我们可以得到每一步的中间结果 (如 mfcc 特征、ivector 向量等)，然后利用 SVM、神经网络等对中间结果进行分类等操作。

对于普通的学习者而言，即使弄懂了算法，同时拥有大量数据，但是并没有服务器，也没有大量内存。因而，想要使用大量数据训练一套性能较好的算法也是相当困难的。鉴于此，我们将详细介绍如何使用小内存 PC 训练大量数据。

基于此教程，除了声纹识别以外，还可以建立其它的语音分类应用系统，如性别识别、哭声检测以及方言种类识别等。

详细内容请关注知识星球。

声纹识别交流QQ群：875705987

NonDay

发布了11 篇原创文章 · 获赞 3 · 访问量 2万+

私信关注

微软说话人识别工具箱(MSR Identity Toolbox)应用与实践教程

猜你喜欢