今天来介绍一个VAD的工具，VAD（Voice Activity Detection）语音活动检测，是可以把一段长语音以静音位置把语音分割成多段短语音，常见的就用WebRTC VAD工具，目前很多项目都是用这个工具，但是今天作者介绍的是另一个工具，这个工具是PPASR的一个小功能，这个功能是基于深度学习实现的。

使用

首先要安装PPASR库。

python -m pip install ppasr -i https://pypi.tuna.tsinghua.edu.cn/simple -U

使用如下，几行代码就可以获取活动语音的位置。这里要注意几点，首先是输入的数据必须是float32，然后是采样率必须是8000或者16000，其他采样率，例如16000的倍数应该也可以，但不保证准确率。

import soundfile

from ppasr.infer_utils.vad_predictor import VADPredictor

vad_predictor = VADPredictor()

wav, sr = soundfile.read('test_long.wav', dtype='float32')

speech_timestamps = vad_predictor.get_speech_timestamps(wav, sr)
print(speech_timestamps)

输出结果如下，是一个列表，每个列表包含一个字典，字典的数据就是活动语音的开始位置和结束位置。

[{'start': 11808, 'end': 28128}, {'start': 75296, 'end': 108512}, {'start': 124448, 'end': 141280}, {'start': 144416, 'end': 158688}, {'start': 184352, 'end': 196576}]

关于如何获取这些语音数据，也很简单，参考下面的代码。

for speech_timestamp in speech_timestamps:
    start, end = speech_timestamp['start'], speech_timestamp['end']
    corp_wav = wav[start: end]
    print(corp_wav.shape)

流式实时检测

最新版本可以支持流式检测语音活动，在录音的时候可以试试检测是否停止说话，从而完成一些业务，如停止录音开始识别等。

import numpy as np
import soundfile

from ppasr.infer_utils.vad_predictor import VADPredictor

vad = VADPredictor()

wav, sr = soundfile.read('dataset/test.wav', dtype=np.float32)

for i in range(0, len(wav), vad.window_size_samples):
    chunk_wav = wav[i: i + vad.window_size_samples]
    speech_dict = vad.stream_vad(chunk_wav, sampling_rate=sr)
    if speech_dict:
        print(speech_dict, end=' ')

实时输出检测结果：

{'start': 11296} {'end': 21984} {'start': 25632} {'end': 54752} {'start': 57376} {'end': 97760} {'start': 103456} {'end': 124896}

使用VAD将长语音分割的多段短语音

使用

流式实时检测

AIStudio 在线使用

猜你喜欢