声纹识别调研

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/rambomatrix/article/details/85319718

1. 基础概念

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。

现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不相同。

2. 核心技术

声纹识别的主要任务包括:语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等。

最关键的两个问题,一是特征提取,二是模式匹配(模式识别)。

特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征。

对于模式识别,有以下几大类方法:

(1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);

(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;

(3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;

(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;

(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;

扫描二维码关注公众号,回复: 4746403 查看本文章

(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大

3. 使用场景

声纹识别是生物识别的一种,相比虹魔识别、人脸识别在一些特殊场景下具有获取成本低的优势:

如黑夜中,如果需要进行生物识别,人脸识别会因光线过弱而无效,而虹膜设备因为需要特殊补光而需要特殊设备,指纹识别进行复制及伪造的门槛过低。但声纹识别则没有上述问题,无缝配合文本密码的特性,让声纹识别在漆黑的场景中璀璨夺目!

能识别主人的语音助理

如果大家的终端设备都用的是一个语音助理,当大家在一个屋子的时候,如果其中有一个人喊了一句Hi 助理,那是不是整个屋子的助理都会有所反应呢?
这个场景我们在开发过程经常会遇到,在办公室会有多台ai路由器,当我想语音唤醒一台的时候,所有路由器都同时被唤醒了,非常影响开发调试。

4. 开源工具包

1.MSR Identity Toolkit ,微软开源的工具箱,MATLAB版本,提供的代码包含GMM-UBM和I-vector

2.Alize,主要包括GMM-UBM、I-vector and
JFA三种传统的方法,C++版,简单易用。

3.kaldi,当下十分流行的语音识别工具包,也包括声纹识别:覆盖了主流的声纹识别算法(I-vector 、x-vector等),脚本语言,使用不易。

5. 第三方技术方案

5.1 讯飞声纹识别

远场身份识别解决方案
文档地址:
http://www.xfyun.cn/solutions/identifySolution
http://www.xfyun.cn/services/isv

接入方式:

1.远场身份识别开发套件 + 远场身份识别开发模块

2.软核授权

支持三种类型的声纹密码:

1.文本密码(密码为指定文本内容)

2.自由说(密码内容不限)

3.数字密码(密码为随机数字串)

可以将说话人声纹信息与库中的已知用户声纹进行1:1比对验证和1:N的检索,并且还需要将说话人所读出的数字声音与云端动态给定的数字内容进行验证。最终,仅当声纹+内容都匹配即验证/检索成功

语言支持:中文的数字

声音要求:注册和测试将采用不同的8位不重复随机数,并且注册需5遍动态数字;验证需1遍动态数字。

响应时间:注册—500ms,验证—900ms

5.2 腾讯声纹识别

对外开放状态:暂未开放

官方文档:https://cloud.tencent.com/product/vpr

支持两种类型的声纹密码:

1.随机数字密码:身份验证时,用户无需再牢记“数字密码”,用声音代替按键输入,验证时系统自动分配数字密码,用户根据分配读出指定数字,完成身份验证。该功能能够解决客户因遗忘或混淆密码而带来的困扰,实时识别,速度快安全性高。

2.指定文本密码:身份注册时,用户需要按照系统要求读出指定文本,并需要牢记文本密码。身份认证时,系统会同时校验指定文本内容及声纹特性。文本密码需要用户妥善保存,并保密。同时支持系统自动分配及用户自定义文本密码,灵活方便,您可以根据业务需求进行选择。

产品案例

微信声纹锁,密码方式:随机数字密码

猜你喜欢

转载自blog.csdn.net/rambomatrix/article/details/85319718