Linux音频驱动-声音采集过程

现实中的声音是一段连续的信号，现在大部分的声音是以离散的数字信号保存下来，例如CD、MP3音频格式。在保存这些信息时，考虑到对声音质量和存储的效率，需要对声音的几个重要的基本属性进行研究。

对于人类而言，声音是通过物体震动而产生的声波，通过介质传播而能够被人耳感知到的波动现象。能够被人耳朵感知到的波动频率在20到20KHz之间，高于这个范围称为“超声波”，低于此范围称为“次声波”。

一些动物感知波动的频率：

- 蝙蝠：1000～120000Hz
- 海豚：2000～100000Hz
- 貓：60～65000Hz
- 狗：15～50000Hz
- 人：20～20000Hz

声波强度用分贝来表示，它和声波在单位时间内对垂直于传播方向的单位面积产生的能量（声强）的对数成正比。波的振幅越大，能量越大，声强也就越大。但这并不意味人能感觉的响度就越大！

声波响度，一定强度的声波作用于人耳所引起的辨别声音的感觉成为响度。响度是主观的，它不仅取决于声音的客观物理强度，还取决于声音的频率。在强度相同时，1000Hz~4000Hz的声音人耳听起来最响。在此范围之外，随着频率的升高或降低，响度越来越弱。当降至20Hz一下或者升高到20KHz人耳就很难听到了。

音调是对声波频率的主观反映，一般频率越高音调越高。声波的强度对音调稍有影响，当频率一定时，声随着强增大，低频音调显得更低，高频音调显得更高。

听阀表示听力的好坏，听阀越高说明需要更高的声强才能让耳朵感受到声音，听力越差，反之听力越好。辨别阀用来表示听觉器官辨别声音某种特性最小差异的能力

声音的采集是在一段连续的信号中，采取离散的信号，采集密度用采样率来表示。香浓采样定理表明，采样频率必须大于被采样信号带宽的两倍。如果信号的带宽是100Hz，那么为了避免混叠采样率必须大于200Hz，否则不能从采样信号中回复原始信号。如果采样频率远远高于2倍信号带宽，可以帮助避免混叠、改善分辨率以及降低噪声。在数字领域中，经常采用的采样率：

- 8,000 Hz - 电话所用采样率, 对于人的说话已经足够
- 11,025 Hz
- 22,050 Hz - 无线电广播所用采样率
- 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
- 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率
- 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率
- 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
- 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率
- 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率
- 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc（藍光碟）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率
- 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

如果采样率越高，单位信号的采集的样本信号就越多，信号还原度也就越高。从上面的不同的采样率可以看到，采样率越高的信号清晰度就越高，当然也要求更多的存储空间。

除了采集率，采样位数也是一个重要的采样指标，它是对一个采样精确度的表示。它和采样率共同影响信号的采集的质量。采样位数是用来表示一个采样信号的长度。对于人类而言，能接受声音的频率范围是20Hz-20KHz, 所以采样的频率44.1KHz 以及16bit的采样位数就可以有很好的保真能力（CD格式的采样率和采样位数）。因此我们可以计算出一张60分钟的2声道立体声音乐CD的大小，3600*44100*(16*8)*2 bit ~= 604MB;

比特率也用来表示但是时间播放连续数字媒体的比特数量，单位bit/s. 它是有采样率和采样位数共同决定的指标，例如上述CD的比特率是44100*16*2bit/s = 1.4Mbit/s

存储音频的格式有很多种：

非压缩格式：如目前最流行的WAV格式，经常用来保存原始录音数据。

有损压缩格式：基于声学心理学的模型，除去人耳很难或者根本听不见的声音，例如一个很高的声音后面跟着一个很低的声音。 MP3属于这种。

无损压缩格式：压缩时不产生质量或者数据的损失，解压产生的数据和为解压的数据完全相同。要保证音乐的原始质量，就应该选择这种格式，APE， FLAC等等属于这种。

多声道格式: 容纳2个声道以上的格式微软的WMA和苹果的AAC，这两个格式是手版权限制的，编码器和解码器需要授权才可以使用。

站内首发文章

Loopers

发布了162 篇原创文章 · 获赞 93 · 访问量 35万+

他的留言板关注