走进音视频的世界——杜比音效之AC3与AC4

杜比音效是由杜比实验室开发的,涉及多声道音频压缩技术。这种数字压缩技术目标是生成数字音频信号,当解码重现时,声音与原始信号相同。同时使用最低码率进行压缩,提供真实的立体环绕声。因此,杜比音效广泛应用于电影院、家庭影音、DVD、蓝光光盘。杜比音效系列主要包括:Dolby AC3、Dolby AC3 Plus、Dolby AC4和Dolby TrueHD。杜比实验室发布的环绕声系统历史演进如下表所示:

解码器 编码器 描述 频道
杜比立体声 杜比MP矩阵 1975年 电影院采用光学技术。使用杜比A降低噪音。杜比立体声处理器将4:2编码为35mm胶片,并将2:4解码回4.0。 带C和MonoSurround矩阵的FL FR
杜比环绕声 / 1982年 杜比立体声的消费者变体。原始解码器利用带有延迟和幻像中心的简单无源LR电路进行3通道解码。 FL FR和MonoSurround矩阵
杜比立体声SR 杜比MP矩阵 1986年 杜比立体声(Dolby SR)减少了杜比SR降噪,以增强保真度和动态范围。 带C和MonoSurround矩阵的FL FR
杜比定向逻辑(Dolby Pro Logic) / 1987年 杜比立体声和杜比环绕声的参考有源矩阵2:4解码器(Cat No. 150)。准确解码Lt ​​/ Rt以恢复LCRS 4.0环绕声。 带C和MonoSurround矩阵的FL FR
杜比数码 AC-3 1992年电影 离散通道编码器/解码器。Pro Logic解码器可用于缩混立体声输入。 FL FR C SL SR SUB
杜比数字环绕EX AC-3 1999年 通过5.1中Ls / Rs通道的矩阵编码进行6.1或7.1环绕声。向后兼容标准5.1数字。 FL FR C SL SR(具有矩阵式RearMono)SUB [非离散7.1:BackLeft和BackRight]
杜比定向逻辑II(Dolby Pro Logic II) 不适用 2000 将非编码立体声上混到Surround 5.1。也可用于解码5.1播放的杜比环绕声。消费者解码器通常包括特定的电影,音乐或游戏模式。 FL FR C SL SR SUB
杜比定向逻辑IIx(Dolby Pro Logic IIx) 不适用 2002年 扩展至PLII。将立体声,杜比环绕声,杜比数字5.1增强到6.1或7.1。将杜比数字EX解码为6.1或7.1。在消费产品中保留电影,音乐或游戏模式。 FL FR C SL SR SUB左后和右后
杜比数字+(Dolby Digital Plus) 增强型AC-3 2005年 有损压缩编解码器;48 kHz采样频率,20位字长;支持32 kbit / s – 6 Mbit / s的数据速率,可扩展,包括高清光盘上的768 kbit / s – 1.5 Mbit / s(通常),以及广播和在线的256 kbit / s。当前媒体应用程序的1.0到7.1通道支持;可扩展至16个通道;离散的。通过高达640 kbit / s的S / PDIF连接与杜比数字技术向后兼容。支持杜比元数据。 FL FR C SL SR SUB左后和右后
杜比TrueHD MLP 2005年 无损压缩编解码器;支持高达4位字长的44.1 kHz至192 kHz采样频率;支持高达18 Mbit / s的可变数据速率。比Dolby Digital Plus更高的比特率。蓝光光盘通道最多支持八个通道的96 kHz / 24位音频;最高192 kHz / 24位的六个通道(5.1); 2至6通道支持最高192 kHz / 24位最大比特率,最高18 Mbit / s。 /
杜比定向逻辑IIz(Dolby Pro Logic IIz) 不适用 2009年 扩展到PLIIx。加上前置高度通道,可将立体声,杜比环绕声或离散5.1 / 6.1 / 7.1解码为7.1高度或完整9.1。 L,C,R,Ls,Rs,Lrs(左后),Rrs(右后),LFE,Lvh和Rvh

一、Dolby AC3

1、什么是AC3

AC3(Audio Code number 3),支持从单声道到5.1声道。它提供5个全带宽声道(3Hz~20000Hz),又称为3/2配置,3个前置声道(左、中、右),外加2个环绕声道。除此之外,还有第六个重低音声道(3Hz~120Hz),也称为"低音增强声道"(LFE)。因此,我们习惯把它称为5.1声道,其声道分布如下图所示:

2、AC3编码原理

像MP3、AAC一样,AC3利用声音的掩蔽特性,使用改进的离散余弦变换(MDCT)进行压缩。输入的PCM采样数据必须是32kHz、44.1kHz或者48kHz,而且是20bits。

AC3编码如上图所示包括采样、量化、编码,具体分为以下6个步骤:

    1) 将音频的表示从PCM时间样本序列(时域)转换为频率系数块序列(频域),属于有损压缩。把512个时间样本重叠块乘以时间窗口,并且变换为频域。由于块重叠,每个PCM输入样本用两个连续块表示。然后频域除以2,使得每个块包含256个频率系数。

    2) 这组指数被编码成信号频谱,称为频谱包络。

    3) 核心位分配例程使用该频谱包络,该例程决定使用多少位编码每个尾数。

    4) 尾数根据位分配信息来量化。

    5) 将6个音频块(1536个音频样本)的频谱包络和量化尾数转换为AC3帧。

    6) AC3比特流(从32到640kbps)是AC3帧的序列。

3、AC3帧结构

AC3帧包含:同步字、循环冗余校验、采样率、框码、比特流识别、比特流模式、编码方式、中心混合水平、环绕声混合水平、环绕模式等字段,如下表所示:

字段 位数 描述
同步字            16                              0x0B77,数据传输采用大端
循环冗余校验            16
采样频率             2                        '11'=保留'10'= 32 kHz'01'= 44.1'00'= 48
框码             6
比特流识别             5
比特流模式             3                                       '000'=主音频服务
音频编码方式             3                                       '010'=左右声道排序
中心混合水平             2
环绕声混合水平             2
杜比环绕声模式             2                   '00'=未表示'01'=未环绕编码'10'=是,环绕编码

4、AC3解码过程

AC3解码过程是编码的逆过程,如下图所示:

解码流程如下图所示:

二、Dolby AC3 Plus

AC3 Plus又称为E-AC3,在AC3基础上进行改进增强。支持更大范围的码率(32kb/s~6144kb/s),支持更多声道。杜比数字(AC-3)支持多达五个全带宽音频声道的最大比特率为640 kbit / s,E-AC-3支持多达15个全带宽音频通道,最大比特率为6.144Mb/s。

1、技术参数

E-AC3技术参数如下:

  • 编码比特率:0.032至6.144 Mbit / s
  • 音频声道:1.0到15.1(即从单声道到15个全音域通道和一个低频声道)
  • 每个位流的音频节目数:8
  • 采样率:32、44.1或48 kHz
  • 三、Dolby AC4

2、结构

E-AC3由一个或多个子流组成,子流有三种类型:

  • 独立的子流,可包含多达5.1个频道的单个节目。杜比数字+(Dolby Digital Plus)流中最多可以存在八个从属子流。独立子流中的声道仅限于传统的5.1声道:左(L),右(R),中(C),左环绕(Ls)和右环绕(Rs)声道,以及低频效果(Lfe)声道。
  • 传统子流包含单个5.1程序,直接对应于杜比数字内容。DD +流中最多只能有一个旧式子流。
  • 从属子流,其中包含传统5.1通道以外的其他声道。由于从属子流具有与独立子流相同的结构,因此每个从属子流最多可包含五个全带宽信道和一个低频信道;但是,这些声道可以分配给不同的扬声器位置。子流中的元数据描述了每个包含的声道的用途。

3、语法

E-AC3是16位对齐的协议,其音频流是固定长度同步帧数据包的集合,每个数据包都对应于256、512、768或1536个连续的时域音频样本。(1536个样本的情况是最常见的情况,对应于杜比数字(Dolby Digital);较短的子帧长度旨在用于交互式应用(如视频游戏),其中减少编码器延迟是一个重要问题。每个同步帧都是可独立解码的,并且属于服务内的特定子流。同步帧由以下语法元素组成:

  • 一个16位同步字,其值为0x0b77。
  • 比特流信息(BSI)部分,其中包括关键元数据,例如帧大小,比特流标识符(指定使用的语法的版本),通道模式,子流标识符,编码的对话级别(dialnorm)以及用于指导的元数据解码器产生缩混。
  • 音频帧部分,包含同步帧中所有音频块共有的解码信息,包括确定如何打包指数和尾数的必要信息。
  • 一,二,三或六个音频块部分。这些部分包含其他解码元数据,以及编码和量化的频率系数。每个音频块对应于每个通道中的256个PCM样本。
  • 最后一部分包含用户定义的辅助数据,产生统一同步帧长度的任何必要填充以及用于错误检测的16位循环冗余校验码。

三、Dolby AC4

AC4可以包含音频声道和音频对象,已经被DVB(数字电视广播)采用,并被ETSI标准化。AC4最多可具有5.1个核心音频声道,所有杜比AC4都需要对这些音频声道进行解码。其他音频声道可以被编码为辅助信号,解码器可以选择支持这些附加信号,从而变成7.1声道。其中低比特率使用高级联合信号信道编码(A-JCC),高比特率使用高级耦合(A-CPL)。A-JCC不支持辅助信号,并且仅限于5.1声道音频,而A-CPL支持辅助信号。与E-AC3相比,AC4的比特率降低了50%。

四、Dolby TrueHD

与AC3、E-AC3、AC4不同的是,Dolby TrueHD是无损压缩,主要用于蓝光光盘。杜比TrueHD提供多达16个离散音频声道,每个声道的采样率高达192kHz,采样深度高达24位。TrueHD携带元数据用来修改其对音频数据解析的非音频信息,可以包括音频规范化或动态范围压缩。

五、Dolby Atmos

Dolby Atmos杜比全景声,通过增加高度声道扩展现有的环绕声系统,从而可以将声音解析为三维对象。杜比全景声允许将多达128个声道分配给影院,以便根据影院的功能扬声器提供最佳的动态渲染。它可以在传统的5.1和7.1布局上构建。对于杜比全景声,其命名稍有不同:7.1.4杜比全景声,带有四个头顶式或启用杜比全景声的扬声器。

参考链接:

Dolby Digital: https://en.wikipedia.org/wiki/Dolby_Digital

Dolby DIgital Plus: https://en.wikipedia.org/wiki/Dolby_Digital_Plus

Dolby AC-4: https://en.wikipedia.org/wiki/Dolby_AC-4

Dolby TrueHD: https://en.wikipedia.org/wiki/Dolby_TrueHD

AC3协议:http://www.atsc.org/wp-content/uploads/2015/03/A52-201212-17.pdf

可以到GitHub一起学习音视频:https://github.com/xufuji456/FFmpegAndroid​​​​​​​

猜你喜欢

转载自blog.csdn.net/u011686167/article/details/113576628