说话人识别中的VAD

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

本文根据kaldi中的vad的算法 kaldi/src/ivector/voice-activity-detection.cc以及网上的一些资源来总结一下这个知识点。

首先VAD的全称是：Voice Activity Detection （语音激活检测），能够区分传输语音信号中的语音信号和背景噪音，当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音，

避免带宽资源的浪费，这里我们只讨论在说话人识别中需要区分背景噪音来构建UBM模型。

下面直接看kaldi的源码，注意看注释

run.sh中调用下面computer_vad_decision.sh

Usage: $0 [options] <data-dir> <log-dir> <path-to-vad-dir>

[plain] view plain copy

在 computer_vad_decision.sh调用的是

Usage: compute-vad [options] <feats-rspecifier> <vad-wspecifier>

输入的是每一个feats文件，由于上边的nj是40，所以这JOB： 1～40，输入mfcc.ark 输出vad.ark

compute-vad --config=$vad_config scp:$sdata/JOB/feats.scp ark,scp:$vaddir/vad_${name}.JOB.ark,$vaddir/vad_${name}.JOB.scp

computer-vad是 kaldi/src/ivectorbin/compute-vad.cc

下面是 computer-vad.cc中的逻辑：

[cpp] view plain copy

[cpp] view plain copy

[cpp] view plain copy

下面这个是计算vad结果的函数： kaldi / src / ivector / voice-activity-detection.cc

[cpp] view plain copy

[cpp] view plain copy

[cpp] view plain copy

[cpp] view plain copy

[cpp] view plain copy

＃激昂feats的第0列as log_energy的value
log_energy.CopyColFromMat(feats, 0); // column zero is log-energy.
#读取配置文件中的噪声的阈值: <span style="font-family: Menlo; font-size: 11px;">--vad-energy-threshold=5.5，若小于这个值则为噪音，若大于则为语音信号
BaseFloat energy_threshold = opts.vad_energy_threshold;

[cpp] view plain copy

[cpp] view plain copy

下面我将给出一个实际的计算过程的demo:

其中raw_mfcc_train1.txt 和 vad_train1.txt分别是在mfcc目录下执行：

./../../../../src/bin/copy-vector ark:vad_train.1.ark ark,t:- > vad_train1.txt

./../../../../src/featbin/copy-feats ark:raw_mfcc_train.1.ark ark,t:- > raw_mfcc_train1.txt

[python] view plain copy