音频相关知识入门

作者：Ianlie Dark
链接：https://www.zhihu.com/question/20035259/answer/32534744
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

【Music Classroom】No.01 浅谈媒体文件

---Ianlie Dark

【前言】

前段时间，一个同事遇到了一个很纠结的客户。说纠结是因为客户要求她提供大小在100MB-200MB以上的歌曲文件。而同事对音频格式又不太了解，于是就开始了无休止的关于FLAC、WAV、音频大小的纠缠。最终，同事也没有跟客户解释清楚到底是怎么回事儿。

在之后，又发生了一些其他事情，让我感觉到音乐这个行业里面，身边有太多从业者对音乐的了解极为匮乏，甚至缺乏一些最基本的音乐相关知识，更甚者是这些知识根本不被重视，从业者连去了解的想法都没有，这让我很感到很悲哀。好像音乐只有一种商品属性，而而我们的从业者只是需要整理下货架，码好各种商品，拿着用户购买记录的大数据就给用户推荐商品了，而根本不需要关心用户为什么喜欢这个品牌，这些商品都有什么特性，用冷冰冰的数据为用户提供着各种服务。

所以，我认为有必要写一些东西了，我不奢望从业者能成为真正爱音乐的人，只希望哪怕你依然只当“她”是商品，也首先能知道自己在卖的东西，到底是什么。

PS：第一讲内容是媒体文件，由于相关内容涉及到很多技术问题，所以好像会有些枯燥，但如果你静心的看下去，会发现其实都是很容易理解的内容，这些基础知识却能很好的提升自己的能力。也请期待我马上会推出的关于唱片、音乐风格等更具趣味性的内容。

【正文】

比特率、采样率、无损、MP3、FLAC、APE、320kb、192kb、128 kb、44.1khz、CBR、VBR。这堆各种各样的名称是不是让你既熟悉又陌生？

比特率越高，音质就越好。而无损音乐，是最高音质，这是真的吗？那就让我们从声音的采集开始说起。

【音频的组成】

当前，我们所说的音频，都是数字音频。数字音频由采样频率、采样精度、声音通道数三个部分组成。

采样频率：既采样率，指记录声音时每秒的采样个数，它用赫兹(Hz)来表示。

采样精度：指记录声音的动态范围，它以位(Bit)为单位。

声音通道：既声道数（1-8个）。

通俗点说，我们可以把声波看成是一条曲线，我们知道，曲线是由点组成的，采样率就是每秒长度（上图横轴）中点的个数。而采样精度就是动态范围（上图竖轴）中点的个数。这两个维度的定位越细，声音的真实还原度就越高，音质也就会更好，当然，音频文件也就会越大。上面那个同事遇到的客户所说的，就是SONY公司最新发布的音频格式Hi-Res Audio，是192kHz / 24bit，6通道录制的音频文件，无损格式的大小当然就会在200多兆了。

采样率根据使用类型不同大概有以下几种（k既千位符号，1khz=1000hz）：

8khz：电话等使用，对于记录人声已经足够使用。

22.05khz：广播使用频率。

44.1kb：音频CD。

48khz：DVD、数字电视中使用。

96khz-192khz：DVD-Audio、蓝光高清等使用。

采样精度常用范围为8bit-32bit，而CD中一般都使用16bit。

说到这里，朋友们开始迷惑了，确定音质好坏的不是比特率啊，那为什么大家都说320kb的比128kb的音质好呢？

【音频的压缩】

好吧，其实比特率这个东西应该说是另一个维度的东西，他是一种音频文件的压缩。

目前我们常用的音频格式，大部分都是基于音频CD（采样率44.1khz、采样精度16bit，2通道）的原始文件“WAV”文件而来的。原始收录的声音数据保存在一个数组里面，这个数组就是PCM格式，而WAV格式，则是微软公司开发的一种编码格式，它的作用是将PCM格式的数据通过编码播放出来。

由于WAV内的数据基本上完整的还原了PCM数据，而其他的无损、MP3、AAC等另外一些编码格式基本也都是基于WAV文件再压缩而成。所以，我们可以简单的认为，WAV是原始音频格式，其他音频格式是压缩格式。

说到压缩，就离不开存储和传输，压缩的目的就是为了更好的存储和传输，所以在说压缩之前，需要我们对计算机的基本单位有一些了解。

我们都知道，计算机是二进制数制，计算机存储的文件都是由0和1两个数字组成。所以，计算机的传输就以每一个数字为单位，每一个数字称为1“位(bit)”，比如说，一段音频，他的基础数据是“0,1,1,1,0,1,1,0”，而传输的时候，就是将这些数字一个个的传输过去。上面说的采样精度就是这个单位。

而计算机的存储单位是“字节(Byte)”，在计算机中，1个字节由8个位组成，也就是说8b(bit)=1B(Byte)。在计算机语言中，数据存储是以10进制表示，数据传输是以2进制表示，所以1KB=1024B=1024×8b。这也是造成我们看到的硬盘容量跟实际容量不符的部分原因。

返回来再说音频压缩，音频的比特率，实际上就是压缩比例。所以比特率实际上只定义文件的大小，但是由于在正常状态下，文件越大，其丢失的数据就越少，所以其音质也就相对更高一些。但比特率本身并不对文件的质量有直接影响，例如我们把128kb的文件作为源文件，即使转换成320kb的文件，其音质依然不会比128kb好。

那么比特率中的数字和字母到底是什么意思呢？首先看128k的全称“128kbps”，我们试着分解一下：128是数字，k是千位符，b是单位，s是秒，ps其实就是“/s”。这样来看，128kbps就是128kb/s。也就是每秒128kb。

请注意，这里的b是小写的b，也就是位。知道了这个，我们就能算出来128kb的文件大概占用多少的存储空间：128*1000=128000b/s÷8=16000B/s÷1024=15.625KB/s*60=937.5KB/分钟÷1024=0.9155MB/分钟。所以，128kb的音频文件，大概每分钟长度的大小都在0.92M或者916kb左右，也就是大家常说的128kb的mp3大小约1M的原因，大家可以在本地测试验证。

在说有损和无损之前，还有两个词跟大家解释一下，就是我们在压缩MP3的时候会看到CBR、VBR两种方式。而CBR就是Constants Bit Rate，恒定比特率；VBR就是Variable Bit Rate，动态比特率。理论上说，VBR的方式是根据音频源文件中声音的具体频率，自动修正一些比特率，以达到在同样比特率效果中，达到更小的文件。

我们再来说有损和无损。简单的来说，有损压缩就是通过删除一些已有数据中不太重要的数据来达到压缩目的；无损压缩就是通过优化排列方式来达到压缩目的。由于这些压缩方式涉及到更深的技术知识，我们就不再多说，大概可以这样去看：有损压缩就像我们在一篇文章中删除一些不重要的助词，达到目的，解压缩后，已删除的内容无法恢复；而无损则是通过排版方式达到的，解压缩之后，还能获得完整的WAV数据，就像是我们常用的winzip和WinRAR那样。

在无损格式中，目前比较常用的有APE(Monkey's audio)、FLAC(Free LosslessAudio Codec)两种。前者拥有更小的比特率，后者则更容易传播，其区别就是，FLAC可以在传播中断后，已传播的数据就可以直接使用。比如我们下载一首APE格式的音乐，必须等全部数据下载完成后，才能播放，而FLAC则不同，你只下载了1/3，就能先播放这1/3的内容。

看到这里，我想你已经想到了，WAV文件也是一种编码格式，那他是不是也是有一定的比特率呢？没错，标准WAV文件的比特率是1411kb、而无损压缩则根据源文件的内容不同，大概是900-1000左右。大家可以自己去计算一下他们的标准大小。

【市场上不同编码模式的区别】

我们经常看到有些说法，64kb的aac(苹果公司使用的音频格式)音质与128kb的MP3音质差不多，但只是MP3一半的大小。包括微软的wma大小也相对较小，但是为什么当前主流音频格式还是mp3呢？

关于这个问题，目前我还没有专门研究过，但综合网络上的一些情况，大概有以下几种吧：

1. MP3是最早一种在互联网上流行的音频编码标准，人们的行为习惯以及全网支持解码使它更具优势。

2. 不同的编码方式在不同的码率优势不同，在192kb-224kb这个范围内，MP3格式的音质还是有绝对优势的。

3. 从Napster开始的MP3免费下载网站，到各大随身听播放器的支持，使得MP3被广泛传播，后续的AAC格式没有遇上如此大规模的传播机遇，从而导致十多年都没有主流化。

PS：AAC其实与MP3来源于同一个标准MPEG，AAC在诞生之初就是作为MP3的继任者出现的。

另外，来源于网友测试的结果可作为参考，如下：

OGG的优势范围：96K以上（OGG）

AAC的优势范围：AAC LC应高于（包含）256K AAC HE 48K-96K

Mp3的优势范围：192K（包含）以上

WMA的优势范围：128K（包含）以下

音频相关知识入门

猜你喜欢