Netflix：通过自适应音频码率提升音频体验

自适应音频码率可以提升用户的主观体验，并且不会降低视频观看体验。本文来自Netflix科技博客，详细阐述了自适应音频带来的好处以及如何处理各种难点。

文 / Guillaume du Pontavice、Phill Williams和KyleePeña（代表我们的流媒体算法，音频算法和创新技术团队）

译 / 咪宝

原文：

https://medium.com/netflix-techblog/engineering-a-studio-quality-experience-with-high-quality-audio-at-netflix-eaa0b6145f32

还记得Stranger Things 2中史诗般的开场序列吗？这辆车在匹兹堡追逐的快感不仅引入了一整套新的神秘面纱，而且还让我们与Dustin、Lucas、Mike、Will和Eleven一起回到了一个心爱的危险世界。也许你是在HDR中观看它的数以百万计的人之一，体验了绚丽的图像。

想象一下没有声音的场景。即使拿走了原声带的一部分，比如精彩的合成流行乐乐谱或高速追逐的完美混合音景，这部电影还会令人兴奋和情绪化吗？

关于流媒体质量的大多数对话都围绕视频。事实上，Netflix已经引领推动大部分对话的视频技术，从4K和HDR等视觉质量提升，到能够让每个人都更好地体验流媒体体验的幕后技术，如自适应流媒体、基于复杂性的编码和AV1 。

我们为视频体验的改进感到非常自豪，但对这些体验的关注使人们很容易忽视声音的重要性，声音对于娱乐和视频一样重要。声音的差异可能非常微妙，但是观众对场景的不同感知方式的影响通常是可以测量的。例如，你有没有在看电视节目时发现视频和音频有点不同步？

在那些了解声音重要性的人中，有达弗兄弟。在2017年底，我们收到了达弗兄弟对Stranger Things 2音频组合的一些批评性反馈：在某些场景中，声音在5.1声道流中的位置感不强。

我们的工程团队和Creative Technologies音频专家联合起来迅速解决了这个问题，但关于更高质量音频的更多讨论仍在继续。系列混音变得更大胆，更具电影效果，对话、音乐和效果元素之间的关系也很紧密。创意选择越来越多地测试了编码质量的极限。我们需要更好地支持这些选择。

在Netflix，我们努力为会员带来出色的音频。我们在2010年开始流式传输5.1环绕音频，并于2016年开始流式传输Dolby Atmos，但仍然希望为全球会员带来工作室品质的声音。即使您没有使用最先进的家庭影院系统，我们也希望您的体验可以更加精彩。正如我们支持HDR和Netflix校准模式等计划以保持流式传输图像的创意意图一样，我们也想对声音做同样的事情。这就是我们开发和推出高品质音频的原因。

要了解有关这项工作背后的工作人员和灵感等更多信息，请查看此视频：

(https://www.youtube.com/watch?v=_eqdt_UOBAQ&feature=youtu.be)。在这篇科技博客中，我们将深入探讨高质量音频，我们如何将其传递给全球会员，以及为什么它对我们如此重要。

“演播室质量”的声音是什么意思？

如果你曾经去过专业的录音室，你可能已经注意到了听起来有些不同。其中一个原因是主控会话中使用的文件是24位48 kHz，每个通道的比特率大约为1Mbps。演播室混音是未压缩的，这就是我们认为它们是“主”版本的原因。

我们的高品质声音功能并非无损，但从听觉上感受到是清晰的。这意味着在压缩音频时，它与原始音源无法区分。基于内部听力测试，杜比提供的听力测试结果以及科学研究，我们确定对于640 kbps及以上的Dolby Digital Plus，音频编码质量从听觉上感受到的是清晰的。除此之外，我们将向您发送具有更高比特率（并占用更多带宽）的文件，而不会为聆听体验带来任何额外价值。

除了决定640 kbps-与24位5.1声道录音室主机相比，压缩比为10：1 是音频的听觉感知清晰阈值，我们为5.1声道音频设置了比特率梯形，范围从192到640kbps。范围从“好”音频到“清晰”-流式传输时没有任何糟糕的音频体验！

与此同时，我们重新审视了我们的Dolby Atmos比特率，并将最高产量提高到768 kbps。随着我们使用编码技术提高效率，我们希望这些比特率会随着时间的推移而发展。

即使我们的会员不是发烧友，高品质声音也是他们的绝佳体验。声音有助于在潜意识中讲述故事，通过微妙的线索塑造我们的体验，例如电话铃声的清晰度或者一群非常密集的鸟鸣声可以增加场景中的焦虑。虽然声音的差异可能会有细微差别，但对观看和收听体验的影响通常是可以衡量的。

也许最重要的是，我们的“录音室质量”声音忠实于混音器并在混音阶段所创造。多年来，在电影和电视行业中，创意人员会在舞台上花费数天时间来完善混音，但在播放给观众时会显着降低。有时，关键的声音线索甚至可能会丢失，从而影响故事的表达。通过提供录音室品质的声音，我们在混音阶段保留了创作意图。

音频自适应流媒体

自从我们开始流式传输以来，我们已经以恒定比特率使用静态音频流。该方法基于回放开始时的网络条件选择音频比特率。但是，我们花了数年时间优化视频自适应流媒体引擎，因此我们知道自适应流媒体具有明显的优势。到目前为止，我们只使用自适应视频流。

自适应流媒体是一种旨在以最佳方式为用户提供媒体以进行网络连接的技术。媒体被分成许多小段（块），每个块包含几秒的回放数据，并提供了多种质量的音频。

640?wx_fmt=png

自适应流媒体算法的目标是提供最佳的整体播放体验，即使在受限环境下也是如此。考虑到频和视频，良好的播放体验应提供最佳的整体质量，并避免缓冲区受阻，从而导致重新缓冲或播放中断。

受限制的环境可能是由于网络条件的变化和设备性能的限制。自适应流媒体必须考虑所有因素。提供出色的播放体验是很困难的。

让我们首先看看静态音频流与自适应视频配对如何在具有可变网络条件的会话中运行，在这个例子中，会话吞吐量突然下降了。

640?wx_fmt=png

上图显示了音频和视频比特率以及可用的网络吞吐量。音频比特率是固定的，并且在回放开始时被选择，而视频比特率变化并且可以周期性地适应。

下图显示了音频和视频缓冲区的演变：如果我们能够比播放缓冲区更快地填充，我们的缓冲区将会增长。如果没有，我们的缓冲区将缩小。

在上面的第一个会话中，用于视频的自适应流式传输算法已经对吞吐量下降做出反应，并且能够通过降低视频比特率来快速稳定音频和视频缓冲器级别。

在下面的第二个场景中，在相同的网络条件下，我们在会话开始时使用静态高质量音频比特率。

640?wx_fmt=png

我们的视频逻辑自适应流媒体正在起作用，但在这种情况下，可用吞吐量变得小于音频和视频比特率的总和，并且我们的缓冲区开始耗尽。

在这种情况下，视频比特率降至音频比特率以下，这可能无法提供最佳的播放体验。

这个简单的示例强调，静态音频流可能会导致网络状况波动时产生次优播放体验。这促使我们使用自适应流式传输音频。

通过使用自适应流式传输音频，我们可以在播放带宽功能时调整音频质量，就像我们对视频一样。

让我们考虑具有完全相同的网络条件（突然的吞吐量下降）的回放会话，以说明自适应流式传输音频的好处。

640?wx_fmt=png

在这种情况下，当网络条件允许时，我们能够选择更高的音频比特率，并且我们能够通过维持良好的音频和视频缓冲水平来自如地切换音频比特率，以避免发生重新缓冲。此外，与前一个示例相比，我们能够保持更高的视频比特率。

在这个简单的案例中，好处显而易见，但将其扩展到我们广泛的流媒体生态系统是另一项挑战。为了推进音频的自适应流媒体，我们必须回答许多问题。

设备覆盖范围怎么样？

我们在现场拥有数以亿计的电视设备，具有不同的CPU，网络和内存配置文件，自适应音频从未经过认证。这些设备可以支持音频流切换吗？

我们必须通过在所有Netflix支持的设备上测试自适应音频切换来评估这一点。
我们还在认证过程中添加了自适应音频测试，以便每个新认证设备都能从中受益。

一旦我们知道大多数电视设备都可以实现音频的自适应流媒体，我们在设计算法时必须考虑到以下问题：

我们如何保证在不降低视频质量的情况下提高音频主观质量，反之亦然？
我们如何保证不会引入额外的缓冲或通过启用高质量音频而增加延迟？
我们如何保证该算法能够自如地处理具有不同性能特征的设备？

我们通过实验回答了这些问题，这些实验对音频算法的自适应流进行微调，以便在不降低视频体验的情况下提高音频质量。经过一年的工作，我们能够回答这些问题并在大多数电视设备上实现自适应音频流。

享受更高品质的体验

通过使用我们的听力测试和科学数据来选择从听觉上感受到最佳“清晰”的比特率，并设计一个可以根据网络条件为其提供服务的自适应音频算法，我们已经能够在具有不同CPU的各种设备上使用此功能、网络和内存配置文件：绝大多数使用5.1声道的会员能够享受到新的高品质音频。

这不会对流媒体体验产生任何负面影响。自适应比特率切换可在流式传输体验期间无缝地运行，可用比特率从良好到清晰，因此您不应该注意到除了更好的声音之外的差异。如果您的网络条件良好，您将获得最佳音频，现在可能听起来像是在混音阶段。如果你的网络有问题，例如，你的姐姐开始大规模下载或你的猫拔掉你的路由器，这时我们的自适应流媒体将会帮助你改善音频质量。

我们自适应视频切换经过多年的完善，我们很高兴可以使用相似的方法将工作室质量的声音能够传递到每个会员的家庭中，确保混合的每个细节都得到保留。独特地将创意技术与Netflix的工程团队相结合，我们不仅能够解决问题，而且能够利用这一问题来提高全球数百万会员的音频质量。

LiveVideoStack 招募

LiveVideoStack正在招募编辑/记者/运营，与全球顶尖多媒及技术专家和LiveVideoStack年轻的伙伴一起，推动多媒体技术生态发展。了解岗位信息请在BOSS直聘上搜索“LiveVideoStack”，或通过微信“Tony_Bao_”与主编包研交流。同时，我们也欢迎通过业余时间向LiveVideoStack贡献内容。

640?wx_fmt=png

LiveVideoStackCon 2019北京正在招募讲师，无论你是技术派还是学术派，亦或是行业专家，无论你的团队有多小、有多新，都可以来申请LiveVideoStackCon的讲师或出品人。

点击【阅读原文】了解更多大会相关信息。

Netflix：通过自适应音频码率提升音频体验

猜你喜欢