Python0018 音频处理（一）音频基础知识

Python0018 音频处理（一）音频基础知识

1.声音音频基础知识

（1）声音是由震动产生，表现为波的形式。波有频率，振幅等参数。对于声波而言：频率越大，音调越高，反之越低。振幅越大，声音越大，反之越小。

（2）采样率，帧率：波是连续（无穷）的，计算机存储是离散（有限）的。要想用有限存储无限，几乎不可能。因此，要每隔一段时间对波进行一次采样。每秒采样次数采样率。长用采样率是44.1kHz(这里的1k不是1024，是1000！！！切记。)。

（3）采样大小，采样宽度：波每一个时刻都有一个对应的能量值，在计算机中用整数存储。通常使用16bit有符号整数存储，采样大小是16bit。

（4）声道：这个不好解释，引用百度百科上的一句话。声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

（5）人耳能听到的声波频率范围是20Hz ~20000Hz，人耳对160Hz~2500Hz的声音比较敏感。

（6）音色：不同物体发音有所不同，这些不同表现在音色上。音色在音频曲线级别的表现是频率的特定变化，振幅的特定变化。

2.python读取.wav音频

下面是python3读取音频代码，详细说明都在注释里。

import wave
import struct

wave_file=wave.open("./sound111.wav", 'r')
channels=wave_file.getnchannels()#声道数
samp_width=wave_file.getsampwidth()#采样大小
frame_rate=wave_file.getframerate()#帧率
numframes=wave_file.getnframes()#总帧数

print("channel",channels)#声道数
print('samp_width',samp_width)#采样大小2B 16bit
print('frame_rate',frame_rate)#8000 帧率8000fps
print('numframes',numframes)#总帧数=帧率*时间=8000fps*10s=80000f
#输出
#channel 1
#samp_width 2
#frame_rate 8000
#numframes 80000

for i in range(500):
    frame=wave_file.readframes(1)#读取1帧音频数据，可能包含多个声道信息
    print(frame,struct.unpack("h",frame[0:2])[0])#struct.unpack("h",frame[0:2])将二进制数据转化成10进制（16bit有符号整数）因为这里采样大小是16bit
    #输出
    #b'\xd4\xfc' -812
    #...
    #b'\x07\xff' -249
    #b'\x05\xff' -251
    #b'X\xff' -168
    #b'\xf2\xff' -14
    #b'0\x00' 48
    #b'#\x00' 35
wave_file.close()

3.python写.wav音频文件

下面是python3写音频代码，详细说明都在注释里。这里需要用到中学的简单三角函数知识，忘记的话可以复习一下。下面是一首两只老虎，尽情欣赏吧。注意：下面的代码中使用的频率是从网上找的，并不准确。国际标准A：440Hz

import wave
import struct
import math

def write_frame(time,freq,framerate,file,wave=0.4,sampwidth=2):
    #time 持续时间 freq 音频频率 framerate采样频率 file 音频文件 wave 音量 sampwidth 采样深度
    t=0#时刻
    step=1.0/framerate #每帧间隔时长
    fw=2.0*math.pi*freq #频率控制参数
    wave=wave*(math.pow(2,sampwidth*8-1)-1)#音量控制
    while t<=time:
        v=int(math.sin(t*fw)*wave)#对波采样  math.sin(t*fw)产生freq频率的正弦波
        t+=step#更新时刻
        #最后这里是与sampwidth的值有关的，下面语句当前仅当sampwidth=2时成立，详细信息参考struct.pack()
        file.writeframesraw(struct.pack("h",v))#写入文件  struct.pack("h",v)将有符号整数v转化成16比特2进制
    

tw=wave.open("./two_tigers.wav","w") #打开或创建./two_tigers.wav
tw.setnchannels(1) #设置声道数 1
tw.setframerate(8000)#设置帧率 8000
tw.setsampwidth(2)#设置采样宽度2B 16bit

#写入声音
#1 2 3 1 1 2 3 1 
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=288, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=320, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=288, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=320, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)

#3 4 5 - 3 4 5 -
write_frame(time=0.5, freq=320, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=341.33, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=384, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=0, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=320, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=341.33, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=384, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=0, framerate=8000, file=tw, wave=0.4, sampwidth=2)

#56 54 3 1 - 56 54 3 1 -
write_frame(time=0.25, freq=384, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=426.67, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=384, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=341.33, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=320, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=384, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=426.67, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=384, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=341.33, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=320, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=0, framerate=8000, file=tw, wave=0.4, sampwidth=2)

#2 6（低音） 1 - 2 6（低音） 1 -
write_frame(time=0.5, freq=288, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=144, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.25, freq=0, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=288, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=144, framerate=8000, file=tw, wave=0.4, sampwidth=2)
write_frame(time=0.5, freq=256, framerate=8000, file=tw, wave=0.4, sampwidth=2)


tw.close()

# C 1 do 256
# D 2 re 288
# E 3 mi 320
# F 4 fa 341又1/3
# G 5 so 384
# A 6 la 426又2/3
# B 7 si 480
# C 1 (上面一个点)do 512
# C:D=8:9
# D:E=9:10
# E:F=15:16
# F:G=8;9
# G:A=9:10
# A:B=15:16

Python0018 音频处理（一）音频基础知识

猜你喜欢