音视频-位深度、采样率以及码率(1)

(一)关于位深度

位深度也叫采样位深,音频的位深度决定动态范围。

我们常见的16Bit(16比特),可以记录大概96分贝的动态范围。那么,您可以大概知道,每一个比特大约可以记录6分贝的声音。同理,20Bit可记录的动态范围大概就是120dB;24Bit就大概是144dB。

假如,我们定义0dB为峰值,那么声音振幅以向下延伸计算,那么,CD音频可的动态范围就是"-96dB~0dB。",依次类推,24Bit的HD-Audio高清音频的的动态范围就是"-144dB~0dB。"。由此可见,位深度较高时,有更大的动态范围可利用,可以记录更低电平的细节。

44分贝 - 属于人类可以接受的程度
55分贝 - 开始感觉到烦
60分贝 - 开始没有睡意
70分贝 - 令人精神紧张
85分贝 - 长时间让人无法接受而捂住耳朵
100分贝 - 可让你你的耳朵暂时失去听觉
120分贝 - 可以瞬间刺穿你的耳膜
160分贝 - 碎玻璃
200分贝 - 人类死亡

(二)关于采样频率。


采样频率最直观的影响是什么?是影响声音的频率范围表现力,采样频率越高,能表现的频率范围就越大。

根据采样定理,低通信号的 无损采样率 应该是 信号的带宽 的 2 倍,人耳的听觉极限是 20 KHz

44.1KHz采样频率,可以表现的频率范围是0Hz-22050Hz;48KHz采样频率可以表现的频率范围就是0Hz-24000Hz;96KHz采样频率可以表现的频率范围是0Hz-48000Hz。人耳能听到的平均频率范围,大概是20Hz-20000Hz。


综合以上两条,那么,假如您看到一个参数:

16Bit 44.1KHz,代表这个数字音频能够表现"96dB的动态范围"和"0赫兹-22050赫兹"的频率范围;

24Bit 48KHz,代表这个数字音频能够表现"144dB的动态范围"和"0赫兹-24000赫兹"的频率范围。

(三)音频位速,也叫码率,或者比特率。


位速是指在一个数据流中每秒钟能通过的信息量,也可以理解为:每秒钟用多少比特的数据量去表示。

原则上,音频位速越高质量越好。

不过,如果是有损压缩音频,不同的压缩算法,即使位速相同,也会导致音质结果完全不同。

典型代表:96kbps的WMA音频格式的音质明显要比96kbps的MP3音质好。为什么会这样呢?因为不同的压缩算法,对数据的利用率不同而造成的差异。再举例,假如MP3压缩至48kbps以下,已经惨不忍睹,而如果是AAC音频格式,同样是48kbps的位速下,音质明显比MP3好。

而对于无损压缩音频,即使位速完全不同,但是最后的音质却相同。比如把同一个WAV文件分别压缩成FLAC格式和APE格式,得到的文件,位速是不太相同的,但是音质却是一样的。即使是同一种格式,压缩级别不同,位速也完全不同,可是最后的结果,音质还是一样(但编码解码时,CPU占用率不同,编码时间也不同)。

(四)总结:

1. 音频:
音频中叫采样率,是指把音频信号数字化(AD采样)后一个通道1秒钟有多少个样本,对应而来的就是原始的数据。如44.1kHz的采样率,就是指1个通道1秒钟有44.1k个数据,这数据可以是16位,也可以是24或者其他,这就是采样精度。
码率就是音频文件或者音频流中1秒中的数据量,如1.44Mbps,就是1秒钟内的数据量达1.44Mbits。
原始的音频数据和实际传输的音频流的大小一般不一致,是因为存在压缩算法这东东。压缩后的音频流一般是固定比特率,这样有利于稳定地传输。也可能是可变比特率,同样大小的文件能取得更好的压缩效果。
CD音质,一般2通道,原始音频数据1秒钟的数据量是44.1k*16*2=1411.2kbits, 压缩成128kbps的MP3,1秒钟数据就变成了128kbits了。丢了少许一般人耳或者设备还原不了的细节,节省了大量的磁盘空间或带宽。


2. 视频:
视频中对应时域的概念叫帧率,如电影的24fps,还有各种30fps,60fps,甚至高速摄影中的120fps,就是指1秒钟抓多少幅图像。耳朵比眼睛灵敏多了,眼睛还有视觉残留,所以这个帧率比音频采样率低太多了。但是图像细节更多,所以视频有尺寸大小,分辨率,也有采样精度(8b/10b)之类的区别。假设都是1920x1080的图像,30fps。图像原始的格式是RGB888,一秒钟的数据量就是(8+8+8)*1920*1080*30 = 1,492,992,000 bits。
同样视频也存在压缩算法,如H.264,压缩完1秒钟的数据就叫码率。假设H.264压缩1080p的视频,码率是10Mbps,就是说1秒中的数据量为10*1024*1024= 10,485,760 bits。
两者差别这么大,也是通过色彩空间转化,压缩,丢掉一些人眼感知不到的细节,换取磁盘空间或带宽。

=====================
一般而言,采样率(帧率)越高,就能越真实低保留【原始模拟的音视频细节】。码率(采样率)越高,能保留的【数字化后的音视频内容】细节就越多,还原出来的音质或者画质就越好。但是,技术是在不断进步的,现在5W的LED比20年前5W的白炽灯要亮太多了。所以得结合各种采样方式,压缩算法质量,甚至音视频特性来分析。

发布了87 篇原创文章 · 获赞 46 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/LearnLHC/article/details/100583814