刚接触语音信号处理，是从下面这几个概念开始的，这几个概念明白了，基本上也就明白原始的语音信号是什么，也就是知道我们要处理啥样的信号了。
等这篇文章的内容明白后，就可以开始进入正题。

PCM和WAV

PCM（Pulse Code Modulation----脉码调制录音)。所谓PCM录音就是将声音等模拟信号变成符号化的脉冲列，再予以记录。PCM信号是由[1]、[0]等符号构成的数字信号，而未经过任何编码和压缩处理。与模拟信号比，它不易受传送系统的杂波及失真的影响。动态范围宽，可得到音质相当好的影响效果。

WAV是由微软开发的一种音频格式。WAV符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。
在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

简单一句，PCM就是没有压缩的格式。

采样频率、量化精度(采样位数)和声道数

采样频率是设备一秒钟内对模拟信号的采样次数，在主流的采集卡上分为：(8Khz的电话采样率就可以达到人的对话程度)

22.05KHz：无线电广播；
44.1KHz：音频 CD，MP3等；
48KHz：miniDV、数字电视、DVD、电影和专业音频。

人耳能够感觉到的最高频率为20kHz，要满足人耳的听觉要求，则需要每秒进行40k次采样，即40kHz。我们常见的CD采样率为44.1kHz。(也比如我对接过硬件的扬声器最高是16KHz，则手机MIC采样率就不用太高，节省传输带宽)
采样位数比如8bit(现在少见)、16bit(常用)和24bit，指的是描述数字信号所使用的位数。

声道数：声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。
单声道 采样数据为8位的短整数（short）；
双声道 采样数据为16位的整数，（int），高八位(左声道)和低八位(右声道)分别代表两个声道。
[时长]s * [采样率]Hz * [采样位数]bit * [声道数] / 8 = [文件大小]byte

某音频信号是采样率为8kHz、声道数、位宽为16bit，时长为1s，则音频数据的大小为：

1 * 8000 * 16 *2 = 256000 bit / 8 = 32000 byte / 1024 = 31.25 KB

WAV头

随便找个WAV的文件，打开后，看下前44byte的头，知道音频的结构后，就知道原始数据的含义，方便后面进行处理。具体含义可以查看下面这张经典图。
WAV头（44byte）

结束语

等知道了上面的内容后，我们就可以开始从读取一个WAV文件开始，解析头文件，然后把原始数据作为输入，跑各种信号处理的算法啦！

来福的猫窝

发布了9 篇原创文章 · 获赞 4 · 访问量 1741

私信关注

嵌入式语音信号处理入门篇

PCM和WAV

采样频率、量化精度(采样位数)和声道数

WAV头

结束语

猜你喜欢