音视频-位深度、采样率以及码率（1）

（一）关于位深度

位深度也叫采样位深，音频的位深度决定动态范围。

我们常见的16Bit（16比特），可以记录大概96分贝的动态范围。那么，您可以大概知道，每一个比特大约可以记录6分贝的声音。同理，20Bit可记录的动态范围大概就是120dB；24Bit就大概是144dB。

假如，我们定义0dB为峰值，那么声音振幅以向下延伸计算，那么，CD音频可的动态范围就是"-96dB～0dB。"，依次类推，24Bit的HD-Audio高清音频的的动态范围就是"-144dB~0dB。"。由此可见，位深度较高时，有更大的动态范围可利用，可以记录更低电平的细节。

44分贝－属于人类可以接受的程度
55分贝－开始感觉到烦
60分贝－开始没有睡意
70分贝－令人精神紧张
85分贝－长时间让人无法接受而捂住耳朵
100分贝－可让你你的耳朵暂时失去听觉
120分贝－可以瞬间刺穿你的耳膜
160分贝－碎玻璃
200分贝－人类死亡

（二）关于采样频率。

采样频率最直观的影响是什么？是影响声音的频率范围表现力，采样频率越高，能表现的频率范围就越大。

根据采样定理，低通信号的无损采样率应该是信号的带宽的 2 倍，人耳的听觉极限是 20 KHz

44.1KHz采样频率，可以表现的频率范围是0Hz-22050Hz；48KHz采样频率可以表现的频率范围就是0Hz-24000Hz；96KHz采样频率可以表现的频率范围是0Hz-48000Hz。人耳能听到的平均频率范围，大概是20Hz-20000Hz。

综合以上两条，那么，假如您看到一个参数：

16Bit 44.1KHz，代表这个数字音频能够表现"96dB的动态范围"和"0赫兹-22050赫兹"的频率范围；

24Bit 48KHz，代表这个数字音频能够表现"144dB的动态范围"和"0赫兹-24000赫兹"的频率范围。

（三）音频位速，也叫码率，或者比特率。

位速是指在一个数据流中每秒钟能通过的信息量，也可以理解为：每秒钟用多少比特的数据量去表示。

原则上，音频位速越高质量越好。

不过，如果是有损压缩音频，不同的压缩算法，即使位速相同，也会导致音质结果完全不同。

典型代表：96kbps的WMA音频格式的音质明显要比96kbps的MP3音质好。为什么会这样呢？因为不同的压缩算法，对数据的利用率不同而造成的差异。再举例，假如MP3压缩至48kbps以下，已经惨不忍睹，而如果是AAC音频格式，同样是48kbps的位速下，音质明显比MP3好。

而对于无损压缩音频，即使位速完全不同，但是最后的音质却相同。比如把同一个WAV文件分别压缩成FLAC格式和APE格式，得到的文件，位速是不太相同的，但是音质却是一样的。即使是同一种格式，压缩级别不同，位速也完全不同，可是最后的结果，音质还是一样（但编码解码时，CPU占用率不同，编码时间也不同）。

（四）总结：

1. 音频：
音频中叫采样率，是指把音频信号数字化（AD采样）后一个通道1秒钟有多少个样本，对应而来的就是原始的数据。如44.1kHz的采样率，就是指1个通道1秒钟有44.1k个数据，这数据可以是16位，也可以是24或者其他，这就是采样精度。
码率就是音频文件或者音频流中1秒中的数据量，如1.44Mbps，就是1秒钟内的数据量达1.44Mbits。
原始的音频数据和实际传输的音频流的大小一般不一致，是因为存在压缩算法这东东。压缩后的音频流一般是固定比特率，这样有利于稳定地传输。也可能是可变比特率，同样大小的文件能取得更好的压缩效果。
CD音质，一般2通道，原始音频数据1秒钟的数据量是44.1k*16*2=1411.2kbits, 压缩成128kbps的MP3，1秒钟数据就变成了128kbits了。丢了少许一般人耳或者设备还原不了的细节，节省了大量的磁盘空间或带宽。

2. 视频：
视频中对应时域的概念叫帧率，如电影的24fps，还有各种30fps，60fps，甚至高速摄影中的120fps，就是指1秒钟抓多少幅图像。耳朵比眼睛灵敏多了，眼睛还有视觉残留，所以这个帧率比音频采样率低太多了。但是图像细节更多，所以视频有尺寸大小，分辨率，也有采样精度（8b/10b）之类的区别。假设都是1920x1080的图像，30fps。图像原始的格式是RGB888，一秒钟的数据量就是（8+8+8）*1920*1080*30 = 1,492,992,000 bits。
同样视频也存在压缩算法，如H.264，压缩完1秒钟的数据就叫码率。假设H.264压缩1080p的视频，码率是10Mbps，就是说1秒中的数据量为10*1024*1024= 10,485,760 bits。
两者差别这么大，也是通过色彩空间转化，压缩，丢掉一些人眼感知不到的细节，换取磁盘空间或带宽。

=====================
一般而言，采样率（帧率）越高，就能越真实低保留【原始模拟的音视频细节】。码率（采样率）越高，能保留的【数字化后的音视频内容】细节就越多，还原出来的音质或者画质就越好。但是，技术是在不断进步的，现在5W的LED比20年前5W的白炽灯要亮太多了。所以得结合各种采样方式，压缩算法质量，甚至音视频特性来分析。

LearnLHC

发布了87 篇原创文章 · 获赞 46 · 访问量 8万+

私信关注