基于MATLAB和Python的短时平均过零率检验

1、需求分析

采用五种基本波形进行短时平均过零率算法的检测。生成一段5s的波形,采样频率均为8000Hz：1、正弦波：幅值：0.5V，频率：1kHz；2、全0波形；3、正弦波：幅值：0.5V，频率：2kHz；4、正弦波：幅值：0.5V，频率：3kHz；5、噪声。

注意：因为生成.wav文件后，MATLAB和python读取WAV文件时全零波形会产生误差，读入后不再是全零波形，所以这里在验证短时平均过零率算法的时候直接输入全零矩阵进行验证。

2、短时平均过零率代码

1）基于MATLAB的代码

短时平均过零率程序：

zcr=zeros(1,frameNum);
for i=1:frameNum
    frameMat(:,i)=frameMat(:,i)-mean(frameMat(:,i));    % 消除直流分量
    zcr(i)=sum(frameMat(1:end-1,i).*frameMat(2:end,i)<=0);
end

完整代码如下：

[y,fs]=wavread('synthesis.wav');
%直接输出全零矩阵
%y=zeros(1,8000);
%fs = 8000; %采样频率
frameSize=200;inc=80; % 设置帧长、帧移
win=hanning(frameSize);
N=length(y);
frameMat=enframe(y, win, inc)';    %分帧。“'”表示共轭转置
frameNum=size(frameMat, 2);  %获取帧数。返回frameMat矩阵的列数
zcr=zeros(1,frameNum);
for i=1:frameNum
    frameMat(:,i)=frameMat(:,i)-mean(frameMat(:,i));    % 消除直流分量
    zcr(i)=sum(frameMat(1:end-1,i).*frameMat(2:end,i)<=0);
end
gll=zcr/frameSize;
sampleTime=(1:N)/fs;
frameTime=((0:frameNum-1)*inc+0.5*frameSize)/fs;
subplot(2,1,1); plot(sampleTime, y); ylabel('Amplitude'); title('waveFile');
subplot(2,1,2); plot(frameTime, gll);
xlabel('Time (s)'); ylabel('过零率'); title('ZCR');

2）基于Python的代码

分帧程序：


def enframe(wave_data, nw, inc, winfunc):
    '''将音频信号转化为帧。
    参数含义：
    wave_data:原始音频型号
    nw:每一帧的长度(这里指采样点的长度，即采样频率乘以时间间隔)
    inc:相邻帧的间隔（同上定义）
    '''
    wlen=len(wave_data) #信号总长度
    if wlen<=nw: #若信号长度小于一个帧的长度，则帧数定义为1
        nf=1
    else: #否则，计算帧的总长度
        nf=int(np.ceil((1.0*wlen-nw+inc)/inc))
    pad_length=int((nf-1)*inc+nw) #所有帧加起来总的铺平后的长度
    zeros=np.zeros((pad_length-wlen,)) #不够的长度使用0填补，类似于FFT中的扩充数组操作
    pad_signal=np.concatenate((wave_data,zeros)) #填补后的信号记为pad_signal
    indices=np.tile(np.arange(0,nw),(nf,1))+np.tile(np.arange(0,nf*inc,inc),(nw,1)).T  #相当于对所有帧的时间点进行抽取，得到nf*nw长度的矩阵
    indices=np.array(indices,dtype=np.int32) #将indices转化为矩阵
    frames=pad_signal[indices] #得到帧信号
    win=np.tile(winfunc,(nf,1))  #window窗函数，这里默认取1
    return frames*win   #返回帧信号矩阵

短时平均过零率程序：

zcr = np.zeros((frameNum,1))
for i in range(frameNum):
    #X =wave_data[np.arange(i*inc,min(i*inc+win,nw))] #为了避免DC偏移，通常我们需要在每个帧上进行均值减法
    X[:,i]=X[:,i]-np.mean(X[:,i])    #消除直流分量
    zcr[i] = sum(X[0:-1,i]*X[1:,i]<0)

完整代码：

import numpy as np
import wave
import scipy.signal as signal
import math
import pylab as pl

def enframe(wave_data, nw, inc, winfunc):
    '''将音频信号转化为帧。
    参数含义：
    wave_data:原始音频型号
    nw:每一帧的长度(这里指采样点的长度，即采样频率乘以时间间隔)
    inc:相邻帧的间隔（同上定义）
    '''
    wlen=len(wave_data) #信号总长度
    if wlen<=nw: #若信号长度小于一个帧的长度，则帧数定义为1
        nf=1
    else: #否则，计算帧的总长度
        nf=int(np.ceil((1.0*wlen-nw+inc)/inc))
    pad_length=int((nf-1)*inc+nw) #所有帧加起来总的铺平后的长度
    zeros=np.zeros((pad_length-wlen,)) #不够的长度使用0填补，类似于FFT中的扩充数组操作
    pad_signal=np.concatenate((wave_data,zeros)) #填补后的信号记为pad_signal
    indices=np.tile(np.arange(0,nw),(nf,1))+np.tile(np.arange(0,nf*inc,inc),(nw,1)).T  #相当于对所有帧的时间点进行抽取，得到nf*nw长度的矩阵
    indices=np.array(indices,dtype=np.int32) #将indices转化为矩阵
    frames=pad_signal[indices] #得到帧信号
    win=np.tile(winfunc,(nf,1))  #window窗函数，这里默认取1
    return frames*win   #返回帧信号矩阵

fw = wave.open('F:\【1】音频\特征参数.m\synthesis.wav','rb')
params = fw.getparams()
print(params)
nchannels, sampwidth, framerate, nframes = params[:4]
str_data = fw.readframes(nframes)
wave_data = np.fromstring(str_data, dtype=np.int16)
wave_data =wave_data*1.0/(max(abs(wave_data)))#wave幅值归一化
fw.close()
#wave_data=np.zeros(8000,np.int16)
#framerate = 8000 #采样频率
nw = 200
inc = 80
winfunc = signal.hann(nw) 
X=enframe(wave_data, nw, inc, winfunc).T   #转置的原因是分帧函数enframe的输出矩阵是帧数*帧长
frameNum =X.shape[1] #返回矩阵列数，获取帧数
zcr = np.zeros((frameNum,1))
for i in range(frameNum):
    #X =wave_data[np.arange(i*inc,min(i*inc+win,nw))] #为了避免DC偏移，通常我们需要在每个帧上进行均值减法
    X[:,i]=X[:,i]-np.mean(X[:,i])    #消除直流分量
    zcr[i] = sum(X[0:-1,i]*X[1:,i]<0)
#print (zcr.max())
time = np.arange(0, len(wave_data)) * (1.0 / framerate)
time2 = np.arange(0, len(zcr)) * (len(wave_data)/len(zcr) / framerate)
pl.subplot(211)
pl.plot(time, wave_data)
pl.ylabel("Amplitude")
pl.subplot(212)
pl.plot(time2, zcr/nw)
pl.ylabel("ZCR")
pl.xlabel("time (seconds)")
#pl.ylim((-1, 2))   
pl.show()

3、实现结果及分析

1）基于MATLAB的实现结果

a. 全零波形验证：

这里写图片描述

b. 一段5s波形验证：

这里写图片描述

2）基于Python的实现结果

a. 全零波形验证：

这里写图片描述
b. 一段5s波形验证：

这里写图片描述

3）结果分析及验证

理论上：每秒的采样点数为8000，正弦波一个周期内经过零点（及横轴）两次，所以1kHz的正弦波每秒经过2000个零点，2kHz的正弦波每秒经过4000个零点，3kHz的正弦波每秒经过6000个零点，即1kHz的正弦波的平均过零率为：2000/8000=0.25,2kHz的正弦波的平均过零率为：4000/8000=0.5,3kHz的正弦波的平均过零率为：6000/8000=0.75;全零波形的平均过零率为：100%；噪声是均匀分布的，所以过零率应该为50%。

实验结果： 由MATLAB和Python的结果可以看出两者仿真的结果相同，并且1kHz的正弦波的平均过零率为0.25,2kHz的正弦波的平均过零率为0.5,3kHz的正弦波的平均过零率为0.75;全零波形的平均过零率为1；噪声的平均过零率应该为0.5左右。

结论：由以上验证可以得出平均过零率的算法是正确的。