音视频开发学习笔记(一)----音频基础概念

版权声明:原创文章,转载请注明出处,谢谢! https://blog.csdn.net/langlitaojin/article/details/88413979

前言

   近一两年直播、短视频等可谓是异常火爆,随着5G技术的逐渐普及,音视频领域估计会迎来新一轮的爆发。对于移动开发者,音视频开发技术也将是一个不可或缺的技能。正所谓“好记性不如烂笔头”,做一些学习笔记还是很有必要的。

数字音频

模拟信号要转化为数字信号通常要经过采样、量化、编码

  • 采样
    所谓采样就是在时间轴上对信号进行数字化。根据奈奎斯特定理(也称为采样定理):当采样频率大于信号中最高频率的2倍时,采样之后的数字信号可以完整地保留原始信号中的信息。对于高质量的音频信号,其频率范围(人耳能够听到的频率范围)是20Hz~20kHz,所以采样频率一般为44.1kHz,这样就可以保证采样声音达到20kHz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。
  • 量化
    量化是指在幅度轴上对信号进行数字化。每一个量化都是一个采样。
  • 编码
    所谓编码,就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储或压缩存储等。编码涉及到很多种格式,通常所说的音频的裸数据格式就是脉冲编码调制(Pulse Code Modulation,PCM)数据。描述一段PCM数据一般需要以下几个概念:量化格式(sampleFormat)、采样率(sampleRate)、声道数(channel)。而对于声音格式,还有一个概念用来描述它的大小,称为数据比特率,即1秒时间内的比特数目,它用于衡量音频数据单位时间内的容量大小。

计算经过压缩的视频输出文件大小公式:
   (音频编码率(kbps)/8 + 视频编码率(kbps)/8)× 影片总长度(秒)/1024 = 文件大小(MB为单位)

计算不经过压缩的声音文件大小公式公式:
   采样频率(Hz)*采样位数(bit)*声道数=数据量(位/秒)

图象应该是,
    画面尺寸(分辨率)*彩色位数(bit)*帧数 = 数据量(位/秒)

音频编码

   压缩编码的基本指标之一就是压缩比,压缩比通常小于1。压缩算法包括有损压缩和无损压缩。压缩编码原理实际上是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号,包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。而被掩蔽掉的音频信号则主要是因为人耳的掩蔽效应,主要表现为频域掩蔽效应与时域掩蔽效应。

   常见的压缩算法有PCM、WAV、AAC、MP3、Ogg等。

WAV编码

   WAV编码不会进行压缩操作。其有多种实现方式,其中一种就是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。

   特点: 音质非常好,大量软件都支持。
   适用场合 : 多媒体开发的中间文件、保存音乐和音效素材。

MP3编码

   MP3具有不错的压缩比,听感上比较接近源WAV文件。

   特点: 音质在128Kbit/s以上表现还不错,压缩比比较高,大量软件和硬件都支持,兼容性好。
   适用场合: 高比特率下对兼容性有要求的音乐欣赏。

AAC编码

   AAC是新一代的音频有损压缩技术,它通过一些附加的编码技术(比如PS、SBR等),衍生出了LC-AAC、HE-AAC、HE-AAC v2三种主要的编码格式。

   特点:在小于128Kbit/s的码率下表现优异,并且多用于视频中的音频编码。
   适用场合:128Kbit/s以下的音频编码,多用于视频中音频轨的编码。

Ogg编码

   Ogg是一种非常有潜力的编码,在各种码率下都有比较优秀的表现,尤其是在中低码率场景下。Ogg除了音质好之外,还是完全免费的。Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,128Kbit/s的Ogg比192Kbit/s甚至更高码率的MP3还要出色。但目前因为还没有媒体服务软件的支持,Ogg目前受支持的情况还不够好,无论是软件上的还是硬件上的支持,都无法和MP3相提并论。

   特点:可以用比MP3更小的码率实现比MP3更好的音质,高中低码率下均有良好的表现,兼容性不够好,流媒体特性不支持。
   适用场合:语音聊天的音频消息场景。

音频基础概念的简单学习就到这里。

猜你喜欢

转载自blog.csdn.net/langlitaojin/article/details/88413979