谷歌HDR+研读（四）

5基于示例的自动曝光

在下文中，我们将详细介绍基于示例的自动曝光方法的实现细节。虽然这种处理方式应该对执行自己的自动曝光算法的人有兴趣，但我们的经验是，我们数据库中大约5,000个场景的标签质量和场景的多样性决定了这些工程决策。而且，我们使用的场景描述符的细节很大程度上受到对效率的关注。

曝光标签 我们用两次曝光来标记我们的自动曝光数据库中的每个场景，短时间曝光高光和长时间曝光阴影，手调整以使用我们的曝光融合变体产生最令人愉快的色调映射结果[Mertens et al 。 2007年]。为了表示这些曝光，我们使用两个相应的伽玛校正图像的平均像素亮度，其作为曝光融合的输入。以这种方式表示曝光有助于将我们的标签与绝对场景亮度或相机的灵敏度分离。作为一种改进，我们计算两次曝光的平均像素亮度。对于短时间曝光，我们使用L2规范（强调高亮度）;对于长时间曝光，我们使用L0.5规范（强调阴影）。

场景描述 给定一个原始取景器框架作为输入，我们计算一个场景描述符并使用它来在我们的自动曝光数据库中找到最相似的场景。我们使用的描述符编码暴露决定所需的基本信息，但也有足够的表达力来帮助区分场景类别。尽管我们的描述符比用于场景识别的计算机视觉中的典型描述符更简单，例如[Oliva和Torralba 2001]，但它在我们的系统中起着类似的作用。

请注意，消费自动曝光的原始帧会产生比使用色调映射的ISP处理帧更有用的描述符。对于移动设备上的相对广角相机而言，由于渐晕，角落处的像素值通常比中心处的像素值低2 f-stop。此外，由于绿色通道是最敏感的，红色和蓝色通道值通常比绿色值低1 f-stop。为了充分利用这种额外的动态范围，我们的自动曝光方法在应用白平衡增益，镜头阴影校正等时保持像素值不变。在正常的成像流水线中，这种方法是不可接受的，因为它会导致错误的颜色在突出显示中转移（通常转向粉红色）。然而，在自动曝光的情况下，未剪切的信号是有用的。

我们用来构建我们的描述符的核心特征是空间加权图像亮度分布，这是在图像的积极下采样版本（25：1）上计算得出的。在下采样过程中，我们通过多路复用拜耳色彩平面来执行一个简单的去马赛克，对两个绿色通道取平均值。对于我们通常处理的12-13 Mpix输入，此初始下采样对应于缩略图大小的160x120线性RGB图像。

从这个下采样图像开始，我们减去黑色电平并使用ISP建议的白平衡增益，镜头阴影校正和3x3色彩校正矩阵（全部没有限幅）来校正颜色。为了捕获多个空间频率下的信息，我们制作下采样图像的副本，并将低通滤波器应用于副本。从这些空间尺度中的每一个，我们进一步下采样（4：1）并提取两个单通道图像：RGB通道的最大值和平均值。我们还计算空间权重：一个固定的权重来支持图像的中心（3：1，径向衰减），以及一个强大的增强（40：1），其中检测到人脸。总的来说，这个处理产生4个单通道线性40×30图像和相应的权重图。

接下来，我们对这些下采样图像进行归一化处理，以便我们可以在具有不同亮度的场景之间匹配类似形状的图像亮度分布。为此，我们取图像亮度值的对数，计算所有未剪切值的加权平均值，然后减去此平均值。

为了提高效率，我们实施了两项优化：

•我们修改第二个（4：1）下采样操作以输出每个像素的两个亮度值。这可以让我们在保留更高频率亮度信息的同时更积极地进行降采样。像往常一样，我们首先对每个下采样像素的4x4输入像素进行平均。然后我们进行第二遍，将像素分成两组：比平均亮度更亮的那些，以及那些更暗的。最后，我们计算每个组的平均值以及输入样本的哪一部分对应于每个组。这种“分裂像素”表示使我们能够为给定的下采样级别生成更高质量的描述符。

•我们使用64个分位数来表示每个下采样图像的加权亮度分布，而不是典型的直方图。分位数包含足够的信息来描述场景，但更加紧凑地存储信息。对于长时间曝光情况，一组中的每个分位数表示加权像素的1/64。然而，在短曝光情况下，代表亮点的前8个分位数对应于更少的加权像素（大约1/512）。这具有双重效果，即为精彩部分添加精确度，并为我们的距离度量指定更多权重。

我们最终的自动曝光描述符是一个256元素矢量，通过将4个下采样图像中的每一个的64个分位数连接起来而形成。

距离度量。为了将输入图像匹配到我们的自动曝光数据库，我们使用描述符之间的L1距离。因为我们的描述符是从分位数建立的，这对应于地球移动者的距离[Cohen和Guibas 1997]总结了4个基本亮度分布。在我们的实施中，我们在5,000个场景的数据库中详尽搜索，录制从输入到每个标记示例的L1距离。

需要额外注意处理剪裁的输入像素。由于我们标记的示例是从传统的HDR曝光包围构建的，因此除了在帧中可见明亮光源时，其直方图很少包含裁剪。但是，我们的输入是在ISP控制的查看过程中捕获的单个原始图像，因此它通常会包含剪切的像素。为了解决这个问题，我们跟踪输入图像中剪切的像素部分（至少一个通道），并用它来确定哪些分位数被污染。然后我们在计算L1距离时忽略这些分位数。

混合曝光标签。为了确定用于输入的短期和长期曝光，我们将例子的曝光标签混合在我们的自动曝光数据库中
它们匹配输入。对于给定的标记示例i，我们将其权重计算为min（max（2-di，0），1），其中di是距离
在输入描述符和示例之间。这个计划为顶部匹配分配1的权重，对于任何距离为双倍或更多的示例，权重为0。正如本文所述，我们也忽略了绝对亮度与当前场景的差异达到8倍以上的例子。这有助于保持对场景亮度的感知，避免例如不自然的日夜演绎。

目标亮度到整体曝光。到目前为止，我们基于示例的自动曝光为我们提供了短时间和长时间曝光的目标像素亮度（经过伽马校正后）。为了将这些转化为当前场景的整体曝光（曝光时间和增益的产物），我们使用我们的整理管道的轻量化模拟。该模拟告诉我们如何调整整体曝光（相对于用于捕捉输入帧的参数），会影响最终伽马校正后图像的平均图像亮度。由于整体曝光和场景亮度之间的映射是平滑和单调的，因此我们可以通过几步平分来反转此功能。

6与JPEG突发融合的比较

在我们的系统中，一个关键的设计决策是使用原始图像作为我们的对齐和合并算法的输入，然后完成原始合并结果。使用原始图像可以提高动态范围，并简单而准确地模拟传感器噪声。相比之下，大多数先前的突发融合方法，例如[Liu et al。 2014; Dabov等人2007; Maggioni等人2012]，会消耗JPEG图像，这些图像已由摄影成像管道完成。

为了将我们的系统与这种基于JPEG的方法进行比较，我们从30个原始猝发数据集开始，并为所有方法应用相同的原始到JPEG精整管道。对于我们的方法，这意味着像往常一样对原始连拍进行对齐和合并，但是替换不同的完成流水线。对于基于JPEG的方法，这意味着使用给定的整理管道从原始图像突发生成JPEG输入。这种实验性的方法让我们专注于对齐和合并算法的性能，而没有整理流水线的混杂效应，整个流程的调整和整体质量差异很大。

实验细节 我们用于评估的30个突发数据集是我们的数千个原始突发数据集的一个子集，将在发布时发布，并包括主要论文中对应于图3-11的10个突发数据集。这些爆发是为了报道不同类型的场景，运动水平和亮度而拍摄的。这些连发被三种类型的相机捕获，其原始图像为12-13 Mpix。

对于RAW转JPEG转换器，我们使用了dcraw [Coffin 2016]，接着是质量等级为98的JPEG编码，这有效消除了由于压缩造成的失真。虽然dcraw实现的流水线与Adobe Camera Raw等商业系统相比是基本的，但其可预测性和缺乏局部色调映射是分析的优势。此外，由dcraw实现的AHD去马赛克方法[Hirakawa和Parks 2005]在实践中运行良好，是移动ISP使用的算法的代表。由于DNG格式和dcraw对颜色元数据的处理的限制，结果中的颜色再现有点令人满意，但效果在各种方法中是一致的。另请注意，有些阵阵曝光不足。这来自我们对HDR场景的捕捉策略，以及由dcraw应用的保守全局色调映射，它将白色电平设置在第99百分位。

我们将我们的方法与来自学术文献的几种最先进的基于JPEG的连拍融合方法进行了比较：Liu等人提出的突发去噪方法的两种变体。 [2014]以及CV-BM3D [Dabov et al。 2007年]。对于[Liu et al。 2014]，作者使用他们的实现来处理我们的数据集，保持所有结果的固定设置。对于3个手动选择的连拍，作者使用全局色调映射曲线使输入变亮，与[Liu et al。 2014]为处理“极端低光”场景。对于CV-BM3D，我们从BM3D网页1运行作者的Matlab实现。由于此方法不包含自动设置关键噪声水平参数的机制，因此我们对17个不同噪声级别进行了网格搜索，并手动选择了结果，这在视觉上似乎是降噪和细节丢失之间的最佳折衷。我们也尝试与V-BM4D进行比较[Maggioni et al。 2012]，但作者的实施无法处理我们的12-13 Mpix连拍。

为了说明商用工具的性能，我们还将Adobe Photoshop CC 2015.1.2 [Adobe Inc. 2016]中基于JPEG的“Merge to HDR Pro”功能与启用“ghost removal”的功能进行了比较，不再进行色调映射。虽然这个Pho-toshop功能也支持合并原始图像，但我们发现HDR输出不适合输入到dcraw，因为它已经部分应用了摄影处理。在我们的实验中，Photo shop的JPEG和基于原始的结果在性质上是相似的，所以我们只在这个比较中包含基于JPEG的结果。我们还尝试了Lightroom CC 2015中的“照片合并HDR”功能，但我们发现当输入图像全部具有相同的曝光时，此功能不具有去噪效果;输出中的每个像素显然都是从单个输入帧导出的。

连拍融合结果总结我们在所有30种突发辅助材料中包含所有方法的全分辨率图像结果，以便以1：1的放大倍数进行详细检查。这里我们总结一下我们的高级研究结果，在图3-5中给出了几个说明性的爆发结果。这些数字中的作物大约为600×600，所以我们鼓励读者积极地放大（300％或更多）以欣赏精细的像素级差异。

•一般来说，我们评估的所有方法都能够处理由于相机抖动引起的平滑运动，从而获得合理明亮的场景。随着移动主体，更复杂的遮挡关系或光线较暗的场景，性能开始下降。

•我们发现Photoshop的合并功能是所有方法中最保守的，只实现了非常有限的去噪。 Photoshop最着名的工件是剪切像素区域的强烈彩色鬼魂。它也有时在重运动的边界产生薄的“回声”。

•[Liu et al。 2014]在运动边界处显示伪影，其中不同的合并量导致残留噪声水平的不连续性。这两种方法偶尔也会出现鬼影伪影。在某些场景中，我们也发现了基于像素的快速变体[Liu et al。 2014]也显示对比度的显着损失，可能是由于金字塔混合中的问题。

•CV-BM3D对于30-脉冲串数据集的运动具有强大的表现力，产生典型的小波去噪结果，没有任何可以明确归因于运动的伪影。根据所选的噪音水平，结果可能看起来过于嘈杂或过平滑，但通常可获得合理的平衡，但需要花费一些细节。对于较高的噪声水平，残差小波基函数在结果中有时可以在像素尺度上看到，并且孤立的热像素有时通过去噪视觉上被夸大。

•我们的对齐和合并方法，如CV-BM3D，对运动非常稳健，30个数据集中没有令人反感的伪影。当对齐确实发生故障时，我们的方法将优雅地分解到基本框架，并且所产生的去噪有时会出现运动模糊。在细节保存和去噪方面，我们的方法通常在此比较中主宰所有其他方法。我们将这一成功归因于我们的稳健合并方法和通过处理原始图像而启用的精确噪声模型。

提醒一下，此评估只是对齐和合并质量的比较。我们的论文代表了从捕捉策略到精加工的低光照和HDR成像的整个系统，该系统可在移动设备上高效运行，并可靠地生成无伪像结果。

运行时性能如表1所示，这些突发融合方法的性能在几个数量级上差别很大。尽管平台差异使得运行时间比较具有挑战性，但很显然，我们的方法和更快的基于像素的变体[Liu et al。 2014]比比较中的所有其他方法至少快一个数量级。在调整平台差异后，我们的方法和基于像素的变体[Liu et al。 2014]仍然有大致相当的表现。但是，由于它们的实现不使用SIMD，它们可能有很大的优化空间。

7与原始突发融合的比较

从原始输入开始的突发融合方法比从JPEG开始的突发融合方法更少见。迄今为止，先前的基于原始的突发融合方法集中在联合去马赛克和合并多帧的益处上，例如[Farsiu et al。 2006; Heide等人2014]，利用亚像素对准来恢复拜耳欠采样损失的高频成分。虽然我们的基于原始的方法比这些方法快几个数量级，但我们对欠采样的处理不够精细 - 将像素对齐到2像素的倍数，并依靠我们强大的合并来处理混叠问题 - 限制了我们可以在最好的规模。

为了将我们的系统与以前的原始突发融合方法进行比较，我们使用最近的FlexISP方法[Heide et al。 2014]作为代表性例子，并在我们的小数据集上运行我们的方法。

实验细节用于突发融合的FlexISP数据集包含5个脉冲串，分辨率范围从0.4-1.8MPix，由降采样或剪切更高分辨率的输入帧生成。其中，2连发是合成的，通过翘曲和噪音添加到地面真实原始图像中创建。额外的2次连发是来自静态场景的18MPixdSLR图像手持序列的小作物。最终的爆发是用3MPix机器视觉相机拍摄的手持人像序列中的一部分。没有一个突发包含重要的场景动作或运动模糊。原始输入框架由FlexISP作者提供。

请注意，虽然FlexISP论文[Heide et al。 2014]和辅助材料似乎暗示，否则所有FlexISP图像爆裂融合结果仅使用每个爆发中的前8个图像作为输入[Heide和Kautz 2016]。因此，我们限制我们使用每个爆发的前8个图像的方法。

我们的方法和FlexISP之间最直接的比较将涉及保持原始到JPEG整理流水线不变（除了集成在FlexISP中的去马赛克）。不幸的是，这种直接比较仅适用于合成爆发，原始到JPEG完成纯粹由去马赛克组成。对于FlexISP数据集中的其他爆发，线性预色调映射的FlexISP结果不可用，我们也无法完美地再现FlexISP的颜色和色调映射。尽管这种不匹配，视觉比较仍然是信息。

爆裂融合结果汇总我们在补充材料中包含所有5个爆发的结果，以便以1：1的放大倍数进行详细检查。我们还包括与BM3D的比较[Dabov et al。 2007]应用于去马赛克的第一帧，FlexISP在其所有结果之前用作去噪[Heide和Kautz 2016]。在这里，我们总结了我们的高级研究结果，图6-8显示了这些爆发中的3个结果。

•没有结果显示由于运动造成的伪影。这是预期的，因为该数据集不包括重要的场景运动，运动模糊或由于相机运动引起的视差。除了人像（图8）以外，FlexISP数据集中的所有连发都是静态场景，人像场景中的动作温和。

•用简单的时间平均替代我们强大的时间合并产生了更多的去噪，没有鬼影伪影，并且只有轻微的细节丢失。这表明我们的对齐方法适用于轻微运动的场景。这两种合并策略之间的差异还说明了我们强大的合并行为有多保守，特别是在信噪比非常低的场景中（图6）。

•BM3D会产生过度平滑的结果，残差小波基函数有时可见。这种去噪水平反映了FlexISP作者选择的调整;噪音和细节之间的其他折衷也是可能的。也许更平滑的调整使得BM3D作为FlexISP之前的降噪更有效。

•对于信噪比非常低的场景（图6），我们的方法比FlexISP或BM3D的去噪更不积极。部分这是一个美学选择。对于我们的方法通常处理的12-13 Mpix图像，这种空间尺度下的亮度噪声一般不会令人反感。我们减少的去噪也遵循一种保守的合并方法，旨在处理现实世界的场景运动。

•对于SNR低的场景（图6-7），FlexISP可恢复输入图像中不可见的精细细节。尽管我们的去噪较弱，但BM3D和我们的方法都没有恢复尽可能多的细节。这证明了亚像素对齐和联合去马赛克处理欠采样的价值。然而，目前还不清楚这些结果在多大程度上归结为更逼真的场景。由于场景是平面的（图6）或几乎如此（图7），因此FlexISP用于初始化其对齐的全局单应矩阵很好地解释了子像素对齐[Heide and Kautz 2016]。

•对于具有中等信噪比的一个真实场景（图8），我们的方法恢复了与FlexISP类似的细节量，并且联合去马赛克似乎不具备优势。虽然很难从一次突发概括出来，但这可能反映了这样的事实，即突发在SNR和空间范围上更接近我们系统通常处理的输入。

运行时性能FlexISP报告16路图像[原文如此] 0.4MPix burst（总计6.4 Mpix）的时序。由于所有FlexISP突发融合图像结果均使用BM3D作为先前的去噪[Heide and Kautz 2016]，因此我们将其与相应的定时进行比较。对于FlexISP的GPU实现，通过减少迭代次数和加速BM3D的近似值进行了优化，它们在250W桌面GPU上报告0.82秒，在11W平板电脑上报告为16.7秒。假设线性缩放与输入像素的数量相匹配，以匹配我们的系统处理的133 Mpix突发（表1），FlexISP的调整后的性能在桌面上为14.5秒，在平板上为295秒。相比之下，我们的系统需要1.8秒才能完成相应的工作量（对齐和合并为1.7秒，从表1加上0.1秒进行去马赛克）。总之，我们在2W移动CPU上的方法分别比桌面和平板电脑上的FlexISP快8.0倍和164倍。在每瓦性能基础上，我们的方法分别比台式机和平板电脑上的FlexISP高出约1000倍和900倍。

图3：中等运动的低光场景下的爆发融合结果。为了便于阅读，农作物一直更加明亮。鼓励读者积极放大（300％或更多）。我们的方法有效去噪，同时保留所有方法的最佳细节。在对齐不成功的地方（最右边作物中的前景人物），我们的结果会降低到出现运动模糊。 CV-BM3D可恢复较少的细节并产生稍微斑点的外观，但运动时表现稳健。 Photoshop具有很小的去噪效果，可能是由于过于保守的去眼镜效果。 [Liu et al。 2014]展示鬼影（面对中等作物），并显示在运动边界附近去噪量的不连续性（最右边的作物）

图4：突发融合结果，对于运动较大的室内场景。鼓励读者积极放大（300％或更多）。我们的方法在保留细节的同时进行去噪处理，并且尽管运动量大且输入模糊，但没有显示合并的伪影。 CV-BM3D表现相当，但保留了更多的噪音。 Photoshop具有很小的去噪效果，可能是由于过于保守的去眼镜效果。 [Liu et al。 2014]结果从不同的和更清晰的框架中获取大多数图像内容，但是融合后的结果被过度平滑，显示出严重的后调和块状伪影（面部和脚部，最左侧的两个作物），并且还显示出重影（最左边的作物上的衬衫上的肉色，在最右边的作物上引导的橙色木质纹理）。

图5：突变融合结果，用于运动变化明亮的户外场景。鼓励读者积极放大（300％或更多）。对于这个明亮且相对较低的动态范围场景而言，合并对于捕获单个输入帧提供了有限的改进。我们的方法CV-BM3D和Photoshop的表现相当，其中去噪效果在低质感区域最为明显。但是，Photoshop在裁剪的像素区域（中间裁剪）中引入了强烈的彩色重像伪影。 [Liu et al。 2014]展示块状文物（靠近左边男人的背部，最左边的作物），并牺牲比其他方法更细致的细节。基于像素的变体也会产生这种爆发（所有作物）的朦胧结果，也许与金字塔混合方法有关。

图6：对于非常嘈杂的0.4 Mpix合成示例的原始突发融合结果。每个突发帧都是通过用全局单应矩阵翘曲地面真实图像生成的，然后添加合成噪声。鼓励读者放大.FlexISP恢复其他方法中不可见的精细细节（孤立的头发，衣服上的质地细腻，叶子上的条纹）。用简单的时间平均替代我们强大的时间合并产生了明显更强的去噪，显示了我们的稳健合并在像这样的低SNR场景中的保守性。虽然我们的方法恢复较少的细节，但它比FlexISP快几个数量级。

图7：使用ISO 12800的15 Mpix dSLR捕获的0.8 Mpix作品的非常黑暗的静态室内场景的原始爆裂融合结果。场景的裁剪部分几乎是平面的。鼓励读者放大.FlexISP恢复其他方法中不可见的精细细节（油漆罐上的小文本，其他方法不可见）。用简单的时间平均代替我们强大的时间合并增加了去噪的强度，但是损失了细节的轻微损失。虽然我们的方法恢复较少的细节，但它比FlexISP快几个数量级

图8：使用3 Mpix机器视觉相机拍摄的1.8 Mpix黑色室内肖像作品的原始突发融合结果，具有轻微的自然场景运动。鼓励读者放大。在这个例子中，我们的方法恢复了与FlexISP类似的细节。我们的方法所表现出的良好对比度的改善部分归因于我们的精整管线的锐化。用一个简单的时间平均代替我们强大的时间合并增加了去噪的强度并减少了色度混叠（分辨率图，中间作物），但损失了细节的轻微损失。在FlexISP结果中，前额（最左边的裁剪）上的绿色像素伪像是由输入中的热点像素引起的。由于去马赛克造成的混淆现象在所有方法中都可见，我们的方法显示出轻微的色度混叠，而BM3D和FlexISP显示交叉影线图案（右侧区域分辨率图表，中间裁剪）。

谷歌HDR+研读（四）

猜你喜欢