Python音频处理(一)——信号,波形与频谱

前言

音频处理属于大学课程《多媒体技术》,什么采样率,频谱等理论知识,博主这里会慢慢的根据实际的代码进行讲解,不会一笼统的纯理论知识一大堆摆上来,毕竟学习音频处理是为了我们处理日常生活中的工作。

关于音频处理的方式,后面的代码都会使用python语言进行处理,至于学完后可以干啥,肯定是大家非常关系的,比如音乐的降噪,模拟某个人的声音,提取音频中重要的信息等,都可以通过python代码实现,话不多说我们直接开始介绍。

波形

在Python语言中, 波形的读写需要用到别人写好的thinkdsp.py代码,比如,这里我们需要读取一个音频并绘制其波形图,代码如下:

from matplotlib import pyplot
import thinkdsp

wave=thinkdsp.read_wave("aaa.wav")
wave.plot()
pyplot.show()

三行代码就可以获取到某个音频文件的波形图,而绘制图形的代码属于matplotlib包,这段代码显示的效果如下图所示:
图形

频谱

通过thinkdsp读取进来的音频文件返回的Wave,提供了一个make_spectrum,spectrum就是频谱的意思,我们可以通过如下代码,打印出音频文件的频谱:

import thinkdsp
import thinkplot

wave=thinkdsp.read_wave("aaa.wav")
spectrum=wave.make_spectrum()
spectrum.plot()
thinkplot.show()

这段代码显示的效果如下图所示:
频谱

Spectrum

Spectrum提供了3中修改频谱的方法:

(1)low_pass:它加载一个低通滤波器,也就是说高于某个给定的截止频率的频率元素被按照一定因素衰减,也就是在大小上降低了。

(2)high_pass:它加载了一个高通滤波器,也就是说低于某个截止频率的元素被衰减了。

(3)band_stop:它让处于两个截止频率之间的波段内的频率元素衰减了。

比如,我们这里来看个例子,代码如下:

import thinkdsp
import thinkplot

wave=thinkdsp.read_wave("aaa.wav")
spectrum=wave.make_spectrum()
spectrum.low_pass(cutoff=600,factor=0.01)
spectrum.plot()
thinkplot.show()
wave=spectrum.make_wave()
wave.write("bbb.wav")

这段代码会移除明亮的高频信号,所以其结果的声音比较压抑而且昏暗,使用低通滤波器后,得到的频谱如下:
对比读者可以对比一下上面两个图形的区别,上面最后两行代码是将spectrum转化成Wave,然后保存到bbb.wav文件中,读者可以试着代码听一下。

波形对象

thinkdsp.py里面并没有什么复杂的东西。其提供的大部分函数只是对Numpy和SciPy函数的稀薄封装。其中初始化的库包括Signal,Wave和Spectrum。给定Signal,读者就可以创建一个Wave。给定一个Wave,就可以创建一个Spectrum。Wave与Spectrum可以互相转换。

Wave对象包括3个特性:包括信号参数的Numpy数组ys;信号开始采用和取值的事件点数组ts;每单位时间的采样数framerate。时间的单位通常是秒,但也可以不是。

Wave还提供了三个只读属性:start,end和duration。如果修改了ts,这些属性也会变更。我们来看一段代码:

wave = thinkdsp.read_wave("aaa.wav")
#wave.scale(2)
#wave.shift(1)
wave.ys *= 2
wave.ts += 1
wave.write("bbb.wav")

上面的代码时将波形扩大两倍,晚一秒时间播放,注释的代码与ys,ts那两行代码是等价的,没有任何不同。

信号对象

Signal是一个父类,它向各种信号提供通用的函数,比如make_wave。子类继承了这些方法并提供evaluate,也就是在给定的时间序列内对信号取值。例如,Sinusoid是Signal的子类,定义如下:

class Sinusoid(thinkdsp.Signal):
    def __init__(self, freq=400, amp=1.0, offset=0, func=np.sin):
        thinkdsp.Signal.__init__()
        self.freq = freq
        self.amp = amp
        self.offset = offset
        self.func = func

参数的含义如下:

(1)freq:频率,其含义为每秒周期数,单位是Hz。

(2)amp:幅度。幅度的单位比较随意,通常设定为1.0,对应为传声器的最大输入或给扬声器的最大输出

(3)offset:其含义为信号周期的起始。offset的单位为弧度。

(4)func:它是一个python函数,用来指定时间点的信号求值。通常它不是np.sin就是np.cos,对应的分别是正弦信号和余弦信号。

跟很多初始化的方法一样,它也是把参数存起来以备未来使用。Signal提供了make_wave,如下所示:

def make_wave(self,duration=1,start=0,framerate=11025):
	n=round(duration*framerate)
	ts=start+np.arange(n)/framerate
	ys=self.evaluate(ts)
	return Wave(ys,ts,framerate=framerate)

start和duration分别表示开始的时间和持续的时间,单位为秒.framerate是每秒帧率(采样数)。n代表采样的数量,而ts是采样时间的Numpy数组。为了计算ys,make_wave需要引入evaluate,它是由Sinusoid提供的:

def evaluate(self,ts):
	phases=PI*self.freq*ts+self.offset
	ys=self.amp*self.func(phases)
	return ys

下面我们来逐步地解析这个函数:

(1)self.freq是频率,代表每秒周期数,而ts的各个元素都是以秒计的,所以它们的乘积是从其实时间开始的周期数。

(2)PI2是一个常数,也是常用圆的Π,这里为2Π。乘上PI2之后就把周期转换成了相位。读者可以把相位理解为弧度形式的“从其实时间开始的周期数”,而每个周期的弧度为2Π。

(3)self.offset是t=0时刻的相位,其作用是把信号在时域上向左或者向右移动一定的距离。

(4)如果self.func是np.sin或者np.cos,其值便是出于-1到1之间。

(5)乘上self.amp之后产生的信号范围为-self.amp到self.amp。

在数学意义上,evaluate的公式如下:

y=Acos(2πft+φ0)

其中A是幅度,f是频率,t是时间,φ0是相位偏移。上面的代码其实就是这段表达式的值,但是正如我们将要看到的,这段代码提供了处理所有信号的构架,而不仅是三级函数信号的。

第一篇的内容就介绍到这里,我们用到的thinkdsp以及thinkplot代码可以在这里下载,下载地址如下:点击下载

发布了114 篇原创文章 · 获赞 147 · 访问量 114万+

猜你喜欢

转载自blog.csdn.net/liyuanjinglyj/article/details/104701036