音视频开发学习笔记（一）----音频基础概念

前言

近一两年直播、短视频等可谓是异常火爆，随着5G技术的逐渐普及，音视频领域估计会迎来新一轮的爆发。对于移动开发者，音视频开发技术也将是一个不可或缺的技能。正所谓“好记性不如烂笔头”，做一些学习笔记还是很有必要的。

数字音频

模拟信号要转化为数字信号通常要经过采样、量化、编码。

采样
所谓采样就是在时间轴上对信号进行数字化。根据奈奎斯特定理（也称为采样定理）：当采样频率大于信号中最高频率的2倍时，采样之后的数字信号可以完整地保留原始信号中的信息。对于高质量的音频信号，其频率范围（人耳能够听到的频率范围）是20Hz～20kHz，所以采样频率一般为44.1kHz，这样就可以保证采样声音达到20kHz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。
量化
量化是指在幅度轴上对信号进行数字化。每一个量化都是一个采样。
编码
所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储等。编码涉及到很多种格式，通常所说的音频的裸数据格式就是脉冲编码调制（Pulse Code Modulation，PCM）数据。描述一段PCM数据一般需要以下几个概念：量化格式（sampleFormat）、采样率（sampleRate）、声道数（channel）。而对于声音格式，还有一个概念用来描述它的大小，称为数据比特率，即1秒时间内的比特数目，它用于衡量音频数据单位时间内的容量大小。

计算经过压缩的视频输出文件大小公式：
（音频编码率（kbps）/8 + 视频编码率（kbps）/8）× 影片总长度（秒）/1024 = 文件大小（MB为单位）

计算不经过压缩的声音文件大小公式公式：
采样频率（Hz）*采样位数（bit）*声道数=数据量（位/秒）

图象应该是，
画面尺寸(分辨率)*彩色位数（bit）*帧数 = 数据量（位/秒）

音频编码

压缩编码的基本指标之一就是压缩比，压缩比通常小于1。压缩算法包括有损压缩和无损压缩。压缩编码原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。而被掩蔽掉的音频信号则主要是因为人耳的掩蔽效应，主要表现为频域掩蔽效应与时域掩蔽效应。

常见的压缩算法有PCM、WAV、AAC、MP3、Ogg等。

WAV编码

WAV编码不会进行压缩操作。其有多种实现方式，其中一种就是在PCM数据格式的前面加上44字节，分别用来描述PCM的采样率、声道数、数据格式等信息。

特点：音质非常好，大量软件都支持。
适用场合：多媒体开发的中间文件、保存音乐和音效素材。

MP3编码

MP3具有不错的压缩比，听感上比较接近源WAV文件。

特点：音质在128Kbit/s以上表现还不错，压缩比比较高，大量软件和硬件都支持，兼容性好。
适用场合：高比特率下对兼容性有要求的音乐欣赏。

AAC编码

AAC是新一代的音频有损压缩技术，它通过一些附加的编码技术（比如PS、SBR等），衍生出了LC-AAC、HE-AAC、HE-AAC v2三种主要的编码格式。

特点：在小于128Kbit/s的码率下表现优异，并且多用于视频中的音频编码。
适用场合：128Kbit/s以下的音频编码，多用于视频中音频轨的编码。

Ogg编码

Ogg是一种非常有潜力的编码，在各种码率下都有比较优秀的表现，尤其是在中低码率场景下。Ogg除了音质好之外，还是完全免费的。Ogg有着非常出色的算法，可以用更小的码率达到更好的音质，128Kbit/s的Ogg比192Kbit/s甚至更高码率的MP3还要出色。但目前因为还没有媒体服务软件的支持，Ogg目前受支持的情况还不够好，无论是软件上的还是硬件上的支持，都无法和MP3相提并论。

特点：可以用比MP3更小的码率实现比MP3更好的音质，高中低码率下均有良好的表现，兼容性不够好，流媒体特性不支持。
适用场合：语音聊天的音频消息场景。

音频基础概念的简单学习就到这里。