Linux音频驱动-声音采集过程

现实中的声音是一段连续的信号, 现在大部分的声音是以离散的数字信号保存下来,例如CD、MP3音频格式。 在保存这些信息时,考虑到对声音质量和存储的效率, 需要对声音的几个重要的基本属性进行研究。

对于人类而言,声音是通过物体震动而产生的声波,通过介质传播而能够被人耳感知到的波动现象。能够被人耳朵感知到的波动频率在20到20KHz之间, 高于这个范围称为“超声波”,低于此范围称为“次声波”。

一些动物感知波动的频率:

    • 蝙蝠:1000~120000Hz
    • 海豚:2000~100000Hz
    • 貓:60~65000Hz
    • 狗:15~50000Hz
    • 人:20~20000Hz


声波强度用分贝来表示, 它和声波在单位时间内对垂直于传播方向的单位面积产生的能量(声强)的对数成正比。 波的振幅越大, 能量越大, 声强也就越大。但这并不意味人能感觉的响度就越大!

声波响度,一定强度的声波作用于人耳所引起的辨别声音的感觉成为响度。 响度是主观的,它不仅取决于声音的客观物理强度, 还取决于声音的频率。 在强度相同时,1000Hz~4000Hz的声音人耳听起来最响。 在此范围之外, 随着频率的升高或降低, 响度越来越弱。 当降至20Hz一下或者升高到20KHz人耳就很难听到了。  

 音调是对声波频率的主观反映,一般频率越高音调越高。 声波的强度对音调稍有影响, 当频率一定时,声随着强增大,低频音调显得更低,高频音调显得更高。

听阀表示听力的好坏, 听阀越高说明需要更高的声强才能让耳朵感受到声音, 听力越差, 反之听力越好。辨别阀用来表示听觉器官辨别声音某种特性最小差异的能力

声音的采集是在一段连续的信号中, 采取离散的信号, 采集密度用采样率来表示。香浓采样定理表明,采样频率必须大于被采样信号带宽的两倍。 如果信号的带宽是100Hz, 那么为了避免混叠采样率必须大于200Hz,否则不能从采样信号中回复原始信号。 如果采样频率远远高于2倍信号带宽,可以帮助避免混叠、改善分辨率以及降低噪声。 在数字领域中,经常采用的采样率:


 

如果采样率越高,单位信号的采集的样本信号就越多,信号还原度也就越高。 从上面的不同的采样率可以看到, 采样率越高的信号清晰度就越高,当然也要求更多的存储空间。

除了采集率, 采样位数也是一个重要的采样指标, 它是对一个采样精确度的表示。 它和采样率共同影响信号的采集的质量。 采样位数是用来表示一个采样信号的长度。 对于人类而言,能接受声音的频率范围是20Hz-20KHz, 所以采样的频率44.1KHz 以及16bit的采样位数就可以有很好的保真能力(CD格式的采样率和采样位数)。因此我们可以计算出一张60分钟的2声道立体声音乐CD的大小,3600*44100*(16*8)*2 bit ~= 604MB;  


比特率也用来表示但是时间播放连续数字媒体的比特数量, 单位bit/s. 它是有采样率和采样位数共同决定的指标, 例如上述CD的比特率是44100*16*2bit/s = 1.4Mbit/s


存储音频的格式有很多种:

非压缩格式:如目前最流行的WAV格式, 经常用来保存原始录音数据。 

有损压缩格式:基于声学心理学的模型,除去人耳很难或者根本听不见的声音, 例如一个很高的声音后面跟着一个很低 的声音。 MP3属于这种。

无损压缩格式:压缩时不产生质量或者数据的损失,解压产生的数据和为解压的数据完全相同。 要保证音乐的原始质量,就 应该选择这种格式,APE, FLAC等等属于这种。

多声道格式: 容纳2个声道以上的格式微软的WMA和苹果的AAC, 这两个格式是手版权限制的, 编码器和解码器需要授权才可以使用。


发布了162 篇原创文章 · 获赞 93 · 访问量 35万+

现实中的声音是一段连续的信号, 现在大部分的声音是以离散的数字信号保存下来,例如CD、MP3音频格式。 在保存这些信息时,考虑到对声音质量和存储的效率, 需要对声音的几个重要的基本属性进行研究。

对于人类而言,声音是通过物体震动而产生的声波,通过介质传播而能够被人耳感知到的波动现象。能够被人耳朵感知到的波动频率在20到20KHz之间, 高于这个范围称为“超声波”,低于此范围称为“次声波”。

一些动物感知波动的频率:

    • 蝙蝠:1000~120000Hz
    • 海豚:2000~100000Hz
    • 貓:60~65000Hz
    • 狗:15~50000Hz
    • 人:20~20000Hz


声波强度用分贝来表示, 它和声波在单位时间内对垂直于传播方向的单位面积产生的能量(声强)的对数成正比。 波的振幅越大, 能量越大, 声强也就越大。但这并不意味人能感觉的响度就越大!

声波响度,一定强度的声波作用于人耳所引起的辨别声音的感觉成为响度。 响度是主观的,它不仅取决于声音的客观物理强度, 还取决于声音的频率。 在强度相同时,1000Hz~4000Hz的声音人耳听起来最响。 在此范围之外, 随着频率的升高或降低, 响度越来越弱。 当降至20Hz一下或者升高到20KHz人耳就很难听到了。  

 音调是对声波频率的主观反映,一般频率越高音调越高。 声波的强度对音调稍有影响, 当频率一定时,声随着强增大,低频音调显得更低,高频音调显得更高。

听阀表示听力的好坏, 听阀越高说明需要更高的声强才能让耳朵感受到声音, 听力越差, 反之听力越好。辨别阀用来表示听觉器官辨别声音某种特性最小差异的能力

声音的采集是在一段连续的信号中, 采取离散的信号, 采集密度用采样率来表示。香浓采样定理表明,采样频率必须大于被采样信号带宽的两倍。 如果信号的带宽是100Hz, 那么为了避免混叠采样率必须大于200Hz,否则不能从采样信号中回复原始信号。 如果采样频率远远高于2倍信号带宽,可以帮助避免混叠、改善分辨率以及降低噪声。 在数字领域中,经常采用的采样率:


 

如果采样率越高,单位信号的采集的样本信号就越多,信号还原度也就越高。 从上面的不同的采样率可以看到, 采样率越高的信号清晰度就越高,当然也要求更多的存储空间。

除了采集率, 采样位数也是一个重要的采样指标, 它是对一个采样精确度的表示。 它和采样率共同影响信号的采集的质量。 采样位数是用来表示一个采样信号的长度。 对于人类而言,能接受声音的频率范围是20Hz-20KHz, 所以采样的频率44.1KHz 以及16bit的采样位数就可以有很好的保真能力(CD格式的采样率和采样位数)。因此我们可以计算出一张60分钟的2声道立体声音乐CD的大小,3600*44100*(16*8)*2 bit ~= 604MB;  


比特率也用来表示但是时间播放连续数字媒体的比特数量, 单位bit/s. 它是有采样率和采样位数共同决定的指标, 例如上述CD的比特率是44100*16*2bit/s = 1.4Mbit/s


存储音频的格式有很多种:

非压缩格式:如目前最流行的WAV格式, 经常用来保存原始录音数据。 

有损压缩格式:基于声学心理学的模型,除去人耳很难或者根本听不见的声音, 例如一个很高的声音后面跟着一个很低 的声音。 MP3属于这种。

无损压缩格式:压缩时不产生质量或者数据的损失,解压产生的数据和为解压的数据完全相同。 要保证音乐的原始质量,就 应该选择这种格式,APE, FLAC等等属于这种。

多声道格式: 容纳2个声道以上的格式微软的WMA和苹果的AAC, 这两个格式是手版权限制的, 编码器和解码器需要授权才可以使用。


猜你喜欢

转载自blog.csdn.net/longwang155069/article/details/53187242