As-Projective-As-Possible Image Stitching with Moving DLT_2014

摘要

商业图像拼接工具的成功常常会导致图像拼接成为“解决的问题”的印象。然而现实是，当输入的照片违反相当严格的成像假设时，许多工具会给出令人难以置信的结果; 主要的两个方面是照片对应于旋转完全不同的视图，或者成像的场景是有效平面的。这种假设支持使用2D投影变换或单应性来对齐照片。在非正式的用户的手中，这些条件经常被违反，产生错位伪像或结果中的“重影”。因此，许多现有的图像拼接工具严重依赖于后处理例程来隐藏重像。在本文中，我们提出了一种称为移动直线变换（Moving DLT）的新颖估计技术，该技术能够调整或微调投影变形以适应输入数据与理想条件的偏差。这产生了尽可能投影的图像对准，其显着减少了重影而不影响透视图像拼接的几何真实性。因此，我们的技术减少了对潜在昂贵的后处理算法的依赖。另外，我们描述了如何通过光束调整来同时改进多个可投影的可能的映射，从而精确地对齐多幅图像以创建大型全景图。这产生了尽可能投影的图像对准，其显着减少了重影而不影响透视图像拼接的几何真实性。因此，我们的技术减少了对潜在昂贵的后处理算法的依赖。另外，我们描述了如何通过束调整来同时改进多个可投影的可能的经纱，从而精确地对齐多幅图像以创建大型全景图。这产生了尽可能投影的图像对准，其显着减少了重影而不影响透视图像拼接的几何真实性。因此，我们的技术减少了对潜在昂贵的后处理算法的依赖。另外，我们描述了如何通过光束调整来同时改进多个尽可能投影的映射，从而精确地对齐多幅图像以创建大型全景图。
术语索引——图像拼接，图像对齐，投影映射，直接线性变换，移动最小二乘法

1 引言

图像拼接算法已经到达一个成熟的阶段，目前有大量基于或结合图像拼接的商业工具。最广为人知的是像Adobe Photoshop的图像编辑软件。基于网站的图像组织工具像微软Photosynth，智能手机应用像Autostitch。以及现成的数码相机的内置图像拼接功能。这些工具对帮助用户组织和欣赏照片集非常有用。这些成功的图像拼接方法或许导致了图像拼接已经被解决的印象。但是，实际上许多工具在不能给出理想数据的情况下无法给出令人信服的结果。
大多数图像拼接算法共享一个相似的流水线：首先，估计使重叠图像对齐的转换或映射矩阵。然后，将对齐的图像合成到一个共同的画布上。当然，在现实生活中，完美的对齐很难实现。因此，大部分研究工作都是为了设计更好的对齐或融合技术来减少或隐藏错位来校正伪像。在文献[2]中对最先进的算法进行了优秀的调查。我们的工作致力于改善流水线中的图像对齐阶段。
首先简要介绍一下用于图像拼接的最先进的融合技术。其中最主要的是切缝方法[3]，[4]中优化重叠影像中的像素选择来使拼接缝最小化可见。[1]和[5]中运用先进的像素混合技术，如拉普拉斯金字塔混合和泊松图像融合[6]，这些方法使由于错位或曝光差异所导致模糊最小化。尽管产生视觉可接受的结果至关重要，但是依赖于后期处理的例程任然不完善，而且可能无法一直工作（具体示例可看文献[7]）。正是这种策略试图在对齐步骤中尽可能的减少错误。
针对拼接中图像对齐部分的研究在某种程度上导致了使用光束法平差[8]来同时优化输入图像的相对旋转[1],[9]，然后用它将所有图像对齐到一个共同的参照系。如[1]中所述，这是Autostitch中使用的技术。早期的作品逐步的映射多张影像，对其中的每个图像进行一系列的对齐处理，让图像映射到公共参考系[10]、[11]。因此重点是需找到最佳的操作顺序，来避免误差过度传播和放大。
有趣的是，目前大多数技术（包括Autostitch和Photosynth）将对齐函数建模为二维投影变换或单应性矩阵。单应性矩阵只有在图像符合只存在角度差异，或者图像的场景在一个平面上才会有效（当场景足够遥远时[2]）。一些商业图像拼接工具至少含蓄的指定了输入条件，请参阅Autostitch和Photosynth上的FAQ页面。违反这个条件将可预见性的产生视差错误或对齐中的重影，这些都得在融合阶段处理。图1中的第1排是来自Autostitch的一个“不成熟的”结果（马赛克仅用简单的强度平均来合成），展示了明显的视差错误——请注意，这个问题主要是由于这个投影模型在表示所需的投影方面的不足，并且在映射估计上不够准确。图2描述了这个条件使用图像拼接的一个一维类比。
实际上，对于一般不熟悉图像拼接基础的临时用户来说，规定的成像条件是很难满足的。其次，当无法重新访问场景以根据所需的成像条件重新拍摄时，将收集到的图像拼接起来的渴望或许会成为一个事后想法。不幸的是，当给出不合适的数据时，一些先进的技术甚至是结合先进的像素融合或后期加工也不能产生令人信服的结果。图1中的第2行和第3行是来自Autostitch和Photosynth最终的（后期处理过的）结果，其中清楚的存在不需要的伪影。
上述问题为改善图像拼接的对齐方法提供了强烈动机。具体而言，我们认为基于单应性的对齐不满足假定成像条件的图像的说明。为此，我们提出了一种称为Moving DLT的新型单应性矩阵估算技术，这项技术能够对单应性矩阵进行调整或精细调整，以解决偏离预期趋势的数据，从而实现尽可能投影的映射；图2展示了我们这种映射的意思，而图1中的第4行显示了原始的对齐结果。我们的方法显著减少了对齐错误，而不会影响场景的几何可信度。
请注意，我们的目标不是消除反虚反射算法的使用，如果存在严重的错位或移动物体，这些算法仍然非常有用。然而，我们认为实现准确的图像对齐是明智的，因为这对后续后处理过程的成功施加了更低的依赖性。
我们工作的早起版本[13]通过拼接一对影像介绍了Moving DLT，这里我们提出了一种新的光束法平差技术，来同时为大型全景图像提供多个尽可能投影的映射。
本文的其余部分安排如下：第二节研究重要的相关工作。第三节介绍了提出的方法及其基本原则，第四节扩展了全景创作的方法。结果在第五节中介绍，我们在第六节中总结。

2 先前的工作

存在考虑任意相机运动下的图像拼接的方法。一个值得注意的例子是基于推扫式相机的多重拼接[14]。使用标准的透视摄像机，可以通过连续“清扫”视频中的场景来近似推扫式摄像机。因此，该方法可能不适用于在“离散”照片集合中拼接静止图像，例如由Autostitch和Photosynth处理的照片。

2.1 三维重构和加上视差的平面

理论上，给定一组场景的重叠视图，可以首先恢复3D结构和摄像机参数。（举例说，通过sfM和密集匹配），然后将每个场景点重新投影到较大的参考图像上以产生拼接图。一个值得注意的方法是[15]，这种方法从沿长街道场景拍摄的图像中产生全景图。然而，如果我们的目标是缝合图像，完整的3D方法可能会“过度杀伤”。事实上，许多先进的融合方法[3],[6]只是将注意力放在创建视觉上良好的拼接图上，而很少考虑3D结构。而且，3D重建仅适用于重叠区域中的场景点。此外，当基线很小（但不完全为零）SfM在视图中可能很脆弱，这代表了现实生活中许多图像拼接案例。折中的方法是使用平面投影映射和视差分量直接对齐图像[16]。如果不进行全面的三维重建，他们的方法只能逼近每个像素的视差[16]，这仍然会导致显着的视差错误。

2.2 全景创造

给定一组重叠的图像，最先进的方法[1]，[9]执行光束法平差[8]，以优化所有视图的焦距和相机姿态（相对旋转），然后产生帧间图像单应性来执行对齐。虽然Shum和Szeliski [9]根据像素值（在有规律的采样斑点位置）来定义误差项，Brown和Lowe [1]使用SIFT关键点来对应[17]。此外，Brown和Lowe [1]介绍了基于SIFT匹配的全景识别步骤，该步骤可以确定属于同一全景的图像子集，并给出无序的照片集合。在[9]中还进行了第二次精修阶段，以解决镶嵌图中的局部错位问题。对于每个色块位置，取自每个视图的反投影光线的平均值，随后再次将其投影到每个视图上以在2D中产生所需的色块位置。然后对原始拼接位置和所需拼接位置之间的差异进行插值（例如，使用样条）以形成用于视差误差去除的校正场。然而，与我们直接改善投影变形的方法相比，这样的两步法更为麻烦。两步法也提出了关于整个过程的最优化的问题，例如，如何使矫正场从过度扭曲原始投影变形中调整。通过直接估算尽可能的投影映射，我们的方法避免了格外的精炼步骤。
除了估计相对图像旋转外，其他作品直接估计图像间单应性，然后链接或线程化单应性以将多个图像拼接到共同的参考框架上[10]，[11]。因此，重点是寻找线程的最佳顺序，以便错误不会被过度传播和放大。单应性也可以通过在单形三联体之间施加几何一致性来加以改进[11]。然而，对单应性对齐的依赖意味着这种线程方法不能处理非理想的数据。

2.3 直接估计灵活的映射

更接近我们的工作的是最近的远离传统单应模型的方法。[18]提出了一种平滑变化的仿射变形来进行图像拼接。从[19]的基于运动相干的点集配准方法开始，由[18]引入了一个自定义初始化，然后局部变形以最小化配准错误，同时保持全局友好性。从概念上讲，这种映射与图像变形中使用的尽可能好的映射相似[12]。然而，从根本上讲，使用有限的正则化可能不是最佳的推断，因为一个关系不足以实现视角变化[2]，例如，一个仿射映射或许会有效地保留外推区域的并行性。因此，由于局部适应性，该方法可以灵活而准确地插值，但在外推时可能会产生扭曲的结果；观察[18]中图6和图7第二行的图像拼接结果。
在视频稳定的背景下，Liu等人[20]提出了保留经线的内容。给定原始图像帧和稳定图像帧之间的匹配点，通过使用尽可能相似的变形[21]映射原始图像来合成新的视图。这能够共同最小化配准误差并且保持场景的刚性。该方法还应用单应性矩阵预先映射原始图像，从而有效地产生合适的局部单应性矩阵。强化场景刚性最大限度地减少了视频稳定中可怕的“摇摆”效应。然而，在图像拼接中，视图之间可能存在较大的旋转和平移差异，由于刚性约束，它们的方法不能够灵活插值。这可能不是[20]中的问题，因为原始的和平滑的相机路径是靠近的（参见[20]中的第4节），即，要对准的视图之间的运动很小。
通过假设场景包含地平面和远处平面，Gao等人 [22]提出了用于图像拼接的双重单应性映射。基本上这是一个分段式的单应性映射的特例，比使用单个单应性矩阵更加灵活。如果所需的设置是正确的，当它表现良好时，可能会难以扩展任意场景的方法，例如，如何估计适当的单应性矩阵数目及其参数。
同样值得注意的是，与所提的方法不同，上述灵活的图像对齐方法不提供用于多重图像拼接的同时改善步骤。因此，在创建大型全景图时，结果的质量高度依赖于成对拼接的精度和对齐函数的链接顺序。

3 尽可能的映射

在本节中，我们首先回顾一下图像拼接中常用的2维投影变形。然后描述我们所提出方法的基本原理。

3.1 2维投影变形

x = [x y]T 和x’ = [x’ y’]分别为重叠影像对 I 和 I’ 的同名点对，通过下面这个关系式以一个投影映射将 x 转换成 x’
这里写图片描述
其中 ~x = [x*T* 1] 是x的齐次坐标，而~表示等比例缩放。3X3的矩阵 H 被称为单应性矩阵。在非齐次坐标中，

式中，rj 表示 H 的第 j 行。式（2）中的分式导致2维公式为非线性的，这对于完全透视变形是至关重要的。图2（a）展示了1维类比。
直接线性变换(DLT)[23]是一种用于从 I 和 I’ 有噪声的匹配点集 {xi, x’i} （i=1~N）中估计 H 基本方法（例如，使用SIFT匹配点建立）。首先，式（1）被改写为隐式条件 O 3*1 = ~x’ * H~x 然后被线性化为
这里写图片描述
式中 h 是通过将 H 矢量化而获得的矢量。式（3）中只有两行是线性独立的。ai 为公式（3）LHS矩阵前两行用于计算第 i 对同名点{xi , x’i}。给定估计的 h ，量 ||ai|| 是第i个基准面的代数误差。DLT 最小化平方代数误差的总和为
这里写图片描述
式中范数约束防止无关紧要的解决方案。因此 DLT 也被称为代数最小二乘[23]。堆栈垂直的 ai 进入矩阵 A ∈R(2N*9)，这个问题可被重写为

该解是 A 的最不重要的正奇异向量。给定估计的 H （重构于 ^h）来通过式（6）对齐影像，源图 I 中一个任意的像素 x* 被映射到目标影像 I’ 中 x’* 的位置
这里写图片描述
为了避免数值精度的问题，在 DLT 之前，数据首先可以按[24]的方式归一化，然后在执行（6）之前对估计的 H 进行非规范化。

3.2 移动直接线性变换

当视图 I 和 I’ 的差异并非完全体现在旋转上，而是处于一个不同的平面场景时，使用一个基本的单应性映射不可避免的会产生错位和视差错误。为了减轻这个问题，我们使用一个局部单应性矩阵来映射每一个 x* 。
这里写图片描述
其中 H* 由加权问题估计得出

权重的标量 { w*i }(i = 1~N)对于更接近 x* 的数据有更高的重要性，并且权重被计算为

这里，σ 是一个尺度参数， xi 是第 i 对同名点{ xi, xi’ }中属于源图 I 中的坐标。
将这个与(6)中对所有的 x* 使用单个的全局的 H 相比。直观的说，由于（9）给越接近 x* 的数据给予越高的权重，所以投影映射 H* 更好的遵循 x* 周围的局部结构。而且，当 x* 在其领域 I 中连续移动时，映射 H* 也平稳的变化。这产生了一个整体变形，灵活的适应数据，但试图保持变形的投影趋势，即灵活的投影映射；图2（C）展示了一维类比。我们将这种方式称为移动直接线性变换。
（8）中的问题可以写成矩阵形式
这里写图片描述
其权重矩阵W* ∈ R(2N*2N)表示为

diag（·）创建一个给定向量的对角矩阵。这是一个加权SVD（WSVD）问题，解决方案只是 W*A 中最不显著的正奇异向量。问题（10）可能不稳定，因为许多权重不重要，例如，当 x* 属于数据不佳（外插）区域时。为了避免估计中的数字问题，我们在0和1之间用一个小的值γ抵销权重。
这里写图片描述
这也有助于使映射正常化，通过高γ降低映射的复杂性。事实上，随着γ接近1，那么所产生的映射将会失去其灵活性，并减少到原始单应性映射。图3展示了没有正则化的映射，而图2(C)示出了相同数据上的正则化映射（使用权重偏移）。
从概念上讲，移动直接线性变换是通常用于表面近似的移动最小二乘（MLS）的齐次版本[25]。在二维中用于图像处理的映射点中[12]，移动最小二乘为每一个 x* 估计一个由矩阵 F*∈R2*2 定义的仿射变换。
这里写图片描述
问题（14）是一个加权最小二乘的问题。包括非平稳权重{W*i}(i = 1~N) 产生灵活的映射，但是这种映射仅仅是尽可能的仿射；图2表交了DLT和MLS在图像拼接的一维类比中的应用。
MLS （以下称为代数移动平方）的单应性版本已在之前（[26]中）用于表面逼近。与我们在这里基于投影映射的公式相反，在[26]中，在DLT的每个加权实例处估计椭圆曲面。此外，我们还提出了一种新的光束法平差步骤（参见第4节），以同时修改多个映射。

3.3 图像拼接的高效计算

到目前为止，我们已经假定数据中不存在不匹配或异常值。在调用移动DLT之前，我们使用RANSAC[27]和DLT作为最小求解器来移除异常值。尽管我们考虑了内点本身可能偏离投影趋势的数据，但实际上，外点误差比内点偏差拥有更大的数量级，因此可以有效地使用RANSAC。

3.3.1 分区到单元格

针对源图像 I 中每个像素位置 x* 的求解（10）是不必要的浪费，因为相邻位置将产生非常类似的权重（9）并且非常相似的单应性。因此，我们将二维域 I 统一划分为 C1*C2 个单元格，并将每个单元格的中心设置为 x* 。然后使用相同的单应性对同一单元内的像素进行映射。图4示出了使用100*100个单元的来自图1中数据的拼接图像。观察到映射对于外推是全局投影的，但是为了更好的对准，在映射区域中灵活的适应。
划分成单元有效地将 WSVD 实例的数量减少到 C1*C2 。而且，每个WSVD实例都是相互独立的，因此加速计算的一种简单方法是并行解决 WSVD。请注意，即使没有并行处理，对于图4中包含2100个 SIFT 匹配点（A的大小为4200*9）的图像中的所有100*100个单元求解（10）在Pentium i7 2.2 GHz Quad 的内核上上仅花费约3秒。一个潜在的问题是单元之间可能发生映射的不连续性，因为单元划分会有效地降低对平滑变化的权重进行采样（12）。实际上，只要细胞分辨率足够高，映射不连续性的影响就很小（对于我们在第5节中测试的所有图像，100*100就足够了）。

3.3.2 更新加权SVD

如果我们认识到，对于大多数单元而言，由于关闭设置（12），许多权重与偏移量γ没有差异，所以进一步的加速是可能的。基于图4(a)和4(b)中的图像，图4(d)所有单元格的直方图其权重数与 γ 不相同（这里 γ = 0.0025）。绝大多数单元（>40%）的权重少于20个（总计2100个），这与γ不同。
为了利用这个观察报告，WSVD可以从先前的解决方案更新而不是从头开始计算。定义 Wγ = γ*I ，令V的列为 Wγ A 的右奇异向量。定义特征分解为基础解决方案：
这里写图片描述
除了具有值 ~wi 的第 i 个对角元素之外，令 W 等于 Wγ。AT ~WT ~W A 的特征分解可以作为一级更新来获得：

其中，

ri 是 A 的第 i 行，且

新对角矩阵的对角化可以使用特征方程有效的完成[29]：
这里写图片描述
乘以 V ~C 得到 ~W A 的右奇异向量。这可以通过利用 ~C 中的柯西结构有效地完成[29]。这一等级更新的成本是

因此，每个单元的WSVD可以通过基础解决方案的少量一级更新来获得，每个更新的成本为
这里写图片描述
总体而言，这比从零开始计算的开销更小，即使我们只是计算正确的奇异向量[30]，对于尺寸为 n x m 的 W *A ，将需要

注意在（10）中，（n = 2N ）>> (m = 9)。

4 同时细化

要拼接多个图像以形成较大的全景图像，可以逐渐对齐图像对并将其合成到参考图像上。然而，增量拼接可能会传递并放大对齐误差，特别是在有多个重叠图像的区域[2]。这种错误可以通过在合成之前同时修改多个对齐函数来缓解。在这里，我们展示了如何使用光束法平差来同时改进多个尽可能投影的映射。
这里写图片描述

4.1 选择参考帧

给定一组输入图像{ Ik } (k = 1~K) ，初始步骤是将图像中的所有关键点映射到公共参考系 IR 上。尽管这对光束法平差并不是必要的，但为简单起见，我们从输入图像之一中选择 IR 。为此，我们应用基于关键点的全景识别方法[1, 第3节]来识别重叠图像对并构建图像链接图。遍历我们选择的 IR 这张图以找到边界数最多的节点（图像）。
全景识别步骤的副产品是重叠图像之间的一组（刚性）单应性矩阵。然后将这些单应性矩阵链接起来用于将图像中关键点映射到 IR 上。为了使这个过程中的传播误差最小，可以估计最佳的链接顺序（例如，连接图的最小生成树[11]）。在 IR 内，具有相同标识的关键点的坐标（这是从在全景识别中进行的承兑图像匹配中推断的）是平均的。该过程的结果是 IR 中的集合坐标 {xri}(Ni = 1)，其中每个 xRi (潜在的)与第 k 个图像 ik 中的关键点 xki 相匹配。

4.2 光束法平差

给定 IR 中的任意位置 x* ，我们希望估计一组局部相关的单应性矩阵 {Hk}(k = 1~K) ，其中每个 *Hk* 映射 x* 从 IR 映射到以下的 Ik。
这里写图片描述
IR 中 x* 处的像素强度来自于 IR (如果存在)处的 x* 处的原始强度和 {K}(k=1~K) 处的位置{xk}(k = 1~K)处的像素强度（如果他们存在）合成。为了估计位置 *x* 所需的单应性 {Hk}(k=1~K)*，我们同时最小化所有对应的传输误差。具体而言，我们将成本降至最低。
这里写图片描述

图5 使用我们的新型光束法平差方案（第4节）将经过变换单元的对齐图像可视化多个尽可能投影的映射。

图 6 定性比较（最好在屏幕上查看）在铁轨图像对上。红圈突出显示错误。所写列表：SVA-平滑变化的仿射，DHW-双重单应性映射，CPW-内容保留映射。请注意Autostitch，Photosynth和APAP的结果如图1所示。
其中
这里写图片描述
是投影映射（在非单应性矩阵坐标中），定义为

其中，r1,r2,r3 是单应性矩阵 H 的三行。
优化的参数包括点坐标{pi}(i=1~N)，这些点对于“耦合“光束法平差中的单应性是必不可少的[8]。坐标{pi}(i=1~N)初始化为4.1节中由单应性矩阵链形成的点{xRi}(i=1~N)。使用移动DLT在{xRi}(i=1~N)和 Ik中的关键点之间的对应关系来初始化第 k 个单应性矩阵 H*k 。请注意，并非所有 xRi 都在 Ik 中具有对应关系；如果存在对应关系 {xRi,xki}，则指示 δik = 1，否则 δik = 0。每个错误终端（18）除以
这里写图片描述
确保在许多图像中匹配的点 xRi 不占主导地位。
请注意，我们计算局部权重

通过参考坐标{xRi}(i=1~N)。这确保了优化的单应性矩阵在局部适应x*。也可以将权重指向迭代更新的点 {pi}(i=1~N)。但是，我们简单的方案足以令人满意地达到预期的效果。
这里写图片描述

图 7 在镜像对上的定性比较（最好在屏幕上观看）。红圈突出显示错误。缩写列表：SVA-平滑变化的仿射，DHW-双双单应性矩阵映射，CPW-内容保留映射，APAP-尽可能投影的映射。
为了减少解决（18）的实例数量，如3.3节所述，我们将 IR 划分为若干个单元格。每个单元格的中心作为 x*，并且估计的 x* 的单应性矩阵用于同一个个单元格内的像素。此外，移动DLT初始化可以通过一系列有效的一级更新来完成（参见第3.3节）。算法1总结了我们的方法。图5说明了估计的多个尽肯能投影的映射。
为了给出问题（18）的大小啊，雅可比矩阵的大小为
这里写图片描述
然而，每个误差项只包含一个点 pi，因此雅可比矩阵非常稀疏。我们使用稀疏的L-M[31]算法来最小化（18）。调用算法1创建图11（第二行）中的7幅全景图需要10分钟（时间包括像素融合），其中每幅图像的尺寸为2000x1329像素， IR 被分为100x100个单元，并且 IR 中的点数是13380。当然，由于问题（10）和（18）在单元中是独立的，所以他们可以并行求解以加速。

5 结论

我们将自己的方法与最先进的图像对齐方法进行比较。在下文中，我们将自己的方法称为APAP（尽可能投影）。在我们的实验中，选择或生成对应于旋转和平移差异的不同视图输入影像。尽管许多数据都经过了测试（包括其他地方使用的数据），并取得了令人信服的结果，但只有少数数据可以纳入本文。请参阅补充材料以获得更多结果，可在计算机协会数字图像馆找到。http://doi.ieeecomputersociety.org/10.1109/247.

5.1 与灵活映射的方法进行比较

首先，我们将APAP与其他用于图像拼接的灵活映射方法进行了比较，即内容保存映射（CPW）[20]，双单应性矩阵的映射(DHW)[22]，和平滑变化仿射（SVA）[18]。如第2.3节所述，这些方法一次只能拼接两幅图像，因为它们要么不容易扩展到同时估计，要么在文献中不存在这样的扩展。我们的目标是针对性的比较不同图像映射方式的对准精度，因此，我们避免了像切缝[3]和矫直[22]这样的复杂后处理，并且简单的通过强度平均来混合对齐的图像，使得任何未对准的情况任然明显。为了完整性，我们还通过一次输入两个图像来比较 Autostitch 3 [1] 和 Photosynth的商业工具。对于 Photosynth，由于在原始版本的软件中无法获取“原始”对齐结果，因此使用最终的后处理结果。
预处理和参数设置。给定一对输入图像，我们首先使用VLFeat库检测并匹配SIFT关键点[32]。然后，我们运行RANSAC以消除不匹配，剩下的内点被分配给CPW, DHW, SVA 和APAP。这些方法的良好性能取决于具有正确的参数。对于 CPW, DHW和SVA，我们调整了最佳结果4所需的参数；请参阅相应的文件以获取所需参数的列表。对于APAP，我们针对尺寸为1024x768到1500x2000像素的图像在范围[8 12]内改变尺度σ。偏移量γ从[0.0025 0.025]中选择。网格大小 C1和C2 都取自范围[50 100]；在每个数据集上，CPW网格中也使用相同的网格分辨率。另外，在[20]，对于CPW，我们预先通过DLT对由RANSAC返回的内点估计的全局单应性矩阵来映射源图像。对于 Photosynth 和 Autostitch，给出了原始输入图像（带有EXIF标签）。
定性比较。图6和图7展示了铁轨和寺庙图像对的结果（注意：图1中已经显示了 Autostitch, Photosynth和APAP在轨道上的结果）。轨道数据是我们自己的，而寺庙是由[22]的作者提供的。
表1
10个图像对上的5种方法的平均RMSE（以像素为单位， TR = 训练集误差， TE = 测试集误差）和20次重复的%外点。基线映射（通过DLT在单体内进行的单个单应性）显然不能令人满意地对齐图像，因为视图并不完全因旋转而不同。SVA, DHW 和Autostitch稍微好一些，但最重要的重影现象仍然存在。此外，请注意SVA产生的高度扭曲的映射，特别是在外推区域。Photosynth制作的错误似乎不太“幽灵化”，建议使用高级融合或像素选择来隐藏错位。尽管如此，后处理并不完全成功；观察地面上错位的铁轨和瓷砖。将上述方法与APAP进行对比，APAP将两幅图像干净的对齐，几乎没有任何伪影。这减轻了后处理的负担。我们已经确认，渐进融合[2]足以解释APAP结果暴露的差异。
虽然具有预映射功能的 CPW能够产生良好的结果，但是刚性约束（如图4（b）中的网格被定义且不鼓励变形）可以反向地限制映射的灵活性（观察仅有的轻微非线性的轮廓的映射影像5）。因此，尽管铁轨和瓷砖正确对齐（这些相对纹理丰富的区域存在更多关键点匹配以影响映射），但重影发生在天际线附近的区域。请注意，虽然APAP引入了一个网格，但它是为了计算效率，而不是强加刚性。
补充材料中的A部分显示了更多图像对的定性比较，可在线获取。
运行时间信息。对于DHW,CPW,SVA和APAP（没有并行计算和1级更新），按照总体持续时间进行映射评估（加上任何数据结构准备），像素映射和融合。所有的方法都在MATALAB中运行，使用 C Mex加速进行变形和混合。DHW和APAP采用的时间为秒，而CPW通常需要几十秒。相比之下，SVA随着图像大小严重缩放（因为更大的图像会产生更多的关键点匹配），这很可能是由于基础点集对齐方法[19]。尽管在[18]中报道了500x500的像素图像需要8分钟，但在我们的实验中，SVA需要15分钟的时间（1024x768）和1 小时的轨道图（1500x2000）。Autostitch 和Photosynth在我们的实验中通常少于7秒。
定量基准测试。为了量化估计的映射f： R^2 -> R^2，我们计算了一组关键点匹配中 f 的均方根误差（RMSE）。

这里写图片描述
此外，对于图像对，我们将可用的SIFT关键点匹配随机分割成“训练”和“测试”集。训练集用于学习映射，RMSE在两组上评估。
我们还采用了[33]的误差度量：如果在目标图像中f(x)的邻域中不存在相似像素，则源图中的像素x被标记为异常值。根据[33]，领域有4个像素的半径定义，并且如果两个像素的强度相差小于10个灰度级，则判断为相似。由f产生的外点的百分比被认为是映射误差。请注意，重叠区域中不存在的像素不包含在此测量中。此外，在我们的实验中，f仅使用训练集中的数据进行估计。
表1描述了10个具有挑战性的真实像对的平均误差（超过20次的重复），其中6个是由[18],[22]的作者提供的（参见文献D部分，可在线获取数据）。很明显，APAP在大多数像对中给出了最低的误差（RMSE和%异常值）。
为了进一步研究，我们通过将3D点云投影到俩个虚拟相机上来生成合成的2D图像。点云从大学校园中的部分建筑物进行激光扫描获得；请参加图8中的第1列所用的点云。控制摄像机的内参和姿态，使映射在200*200像素的图像内投影。投影产生一组双目匹配，允许直接应用各种映射估计方法。对于每个点云，我们固定摄像机的相对旋转角度在30°之间，并沿着固定方向改变相机中心之间的距离。
为了生成不同的数据实例，我们随机抽取每个点云1500个点。图8显示了平均（超过50次重复）的训练和测试RMSE与摄像机距离的关系图（因为没有图像像素，此处不能使用%异常值测量[33]）。预计所有方法都会随着相机距离的增加而变差。请注意，SVA和CPW的误差不会随着平移趋于零而减小。对于SVA来说，这是由于它的是仿射变换而不是透视正则化（换句话说，即使在没有相机转换的情况下，仿射模型也是不正确的模型）。对于CPW而言，这表明其保持刚性的失真有时可能会过度干扰单应性的预失真。相反，APAP随着相机中心的重合而很好的降低至全局单应性矩阵，并且总体上提供最低的误差。
这里写图片描述

5.2 与光束平差法的比较

在这里，我们将我们新型的APAP光束法平差方案与Autostitch[1]进行比较，同时修改多个对齐函数。Autostitch 使用光束法平差来优化一组重叠影像之间的相对旋转和单应性。再次，为了直接比较对准精度，我们避免了所有高级合成，并且简单地将对齐的图像与像素平均值混合（Autopano商业版Autostitch运行关闭后处理）。由于Autostitch将图像预加载到圆柱面上，我们也对APAP执行相同的预变形。
图9,10和11分别显示了施工现场、花园和火车图像集的对齐结果。图像对应于不同于纯旋转的视图，正如人们对典型游客的照片集所期望的那样。Autostitch结果显示明显的错位；这些在图像中用红圈突出显示。从根本上说，这是由于被限制使用单应性对齐。相比之下，我们的APAP方法（Moving DLT初始化和光束法平差优化）产生了更精确的对齐，保持了几何上合理的总体结果。
但是，两种方法（无光度后处理）都无法处理运动物体，这会在拼接中产生运动视差。这在火车现场（图11）中很明显，那里有许多步行行人。尽管如此，我们的APAP算法比Autostitch更好地处理场景的静态组件。

5.3 拼接全景图和后处理

我们的前提是，更精确的图像对齐对去鬼影和后处理的依赖性较低。因此，更精确的对齐方法往往会产生更令人满意的最终结果。为了演示这一点，我们通过使用移动DLT将多个图像逐渐拼接到画布上来拼接完整全景图。在将每张影像映射到画布上后，我们应用切缝和羽化混合来合成像素。由此产生的拼接使我们能够与Autostitch和Photosynth进行平等比较，默认情况下进行后处理。补充部分的B部分展示了施工现场、可用的在线、花园和火车图集的结果。
显然，我们的结果显示出比Autostitch和Photosynth更少的伪影。特别是，在移动DLT之后，运动视差错误已经通过缝合线切割处理，而不会在场景的其他部分引入明显的对准误差。Photosynth的结果显示了缝合线切割迹象和复杂的像素混合方法。虽然存在明显的伪影，且使用基本单应性配准会有潜在非常糟糕的错误，Photosynth的结果显示了后处理方法显著降低或隐藏大部分错位伪影的能力。尽管如此，我们的贡献方法允许通过改进的图像对齐方式彻底消除其余的错误。

6 结论

我们已经提出了用于图像拼接的尽可能投影的映射。使用我们的新型移动DLT算法来估计映射矩阵。我们的方法能够准确地对准不仅仅是纯旋转的图像。我们还提出了一种新的局部加权光束调整方法，以同时对齐多个图像。结果表明，由于相机平移倾向于零，所提出的映射很好的降低至全局单应性，但随着平移的增加，无法灵活的解释模型的不足。结合常用的后处理方法，我们的技术可以产生比最先进的图像拼接软件更好的结果。

致谢

作者感谢R. Hill和A.Eriksson对使用ceres的有用讨论[31]。这项研究部分在Se Sa Me中心进行，由新加坡NRF根据IRC @ SG资助计划支持，由IDMPO管理。
这里写图片描述