【论文翻译】Iterative Geometry Encoding Volume for Stereo Matching and Multi-View Stereo(CVPR 2023)

一、论文简述

1. 第一作者:Gangwei Xu

2. 发表年份:2023

3. 发表期刊:CVPR

4. 关键词:立体匹配、MVS、几何编码体、GRU、3D卷积

5. 探索动机:RAFT的全对相关体缺乏非局部几何知识,难以处理病态区域的局部模糊。

However, without cost aggregation the original cost volume lacks non-local geometry and context information. As a result, existing iterative methods have difficulties tackling local ambiguities in ill-posed regions, such as occlusions, texture-less regions and repetitive structures. Even though, the GRU updaters can improve the predicted disparities by incorporating context and geometry information from context features and hidden layers, such limitation in the original cost volume greatly limits the effectiveness of each iteration and in turn yield a large amount of GRUs iterations for satisfactory performance.

6. 工作目标:结合代价聚合和迭代方法的优势。

We claim that aggregation-based methods and iterative methods have complementary advantages and limitations.The former can encode sufficient non-local geometry and context information in the cost volume which are essential for disparity prediction in particular in challenging regions. The latter can avoid high computational and memory cost for 3D cost aggregation, yet are less capable in ill-posed regions based only on all-pairs correlations.

7. 核心思想:

we propose Iterative Geometry Encoding Volume (IGEV), a new paradigm for stereo matching and multi-view stereo (see Fig. 3). To address ambiguities caused by ill-posed regions, we compute a Geometry Encoding Volume (GEV) by aggregating and regularizing a correlation volume using an extremely lightweight 3D convolution network. A potential problem of GEV is that it could suffer from over-smoothing at boundaries and tiny details due to the 3D regularization network. To complement local correlations, we combine the GEV and all-pairs correlations to form a Combined Geometry Encoding Volume (CGEV) and input the CGEV into the GRU-based update operator for iterative disparity map optimization.

8. 实验结果:

We build two models (i.e., IGEV-Stereo and IGEVMVS) based on IGEV for stereo matching and MVS respectively. We demonstrate the efficiency and effectiveness of our method on both stereo matching and MVS benchmarks. For stereo matching, our IGEV-Stereo achieves the stateof-the-art EPE of 0.47 on Scene Flow and ranks 1st on KITTI 2015 leaderboard among all the published methods. Regarding the inference speed, our IGEV-Stereo is the fastest among the top 10 methods on KITTI 2015 leaderboard. IGEV-Stereo also exhibits better cross-dataset generalization ability than most existing stereo networks. When trained only on synthetic data Scene Flow, our IGEV-Stereo performs very well on real datasets Middlebury and ETH3D. For MVS task, our IGEV-MVS outperforms the state of-the-art methods, including PatchmatchNet and IterMVS. Specifically, our IGEV-MVS achieves 8.0% and 10.7% relative improvements compared with the two methods respectively on the DTU benchmark.

9.论文&代码下载:

https://arxiv.org/pdf/2303.06615.pdf

https://github.com/gangweiX/IGEV

二、论文翻译

用于立体几何匹配和多视图立体几何的迭代几何编码体

摘要:循环全对场变换(RAFT)在匹配任务中显示出巨大的潜力。然而,全对相关缺乏非局部几何知识,难以处理病态区域的局部模糊。在本文中,我们提出了一种新的用于立体几何匹配的深度网络架构——迭代几何编码体(IGEV)。所提出的IGEV构建了一个组合的几何编码体,对几何和上下文信息以及局部匹配细节进行编码,并对其进行迭代索引以更新视差图。为了加快收敛速度,我们利用GEVConvGRUs迭代回归一个准确的起点。我们的IGEV-StereoKITTI 20152012(反射)上所有发表的方法中排名第一,是前10种方法中最快的。此外,IGEV-Stereo具有较强的跨数据集泛化能力和较高的推理效率。我们还将IGEV扩展到多视图立体几何(MVS),即IGEV-MVS,在DTU基准上实现了具有竞争力的精度。代码可从https://github.com/gangweiX/IGEV获得。

1. 介绍

从捕获的图像中推断3D 场景几何是计算机视觉和图形学的一项基本任务,其应用范围包括3D 重建、机器人和自动驾驶。立体匹配是3D 场景几何重建的关键技术,其目标是用标定的摄像机从两幅图像中重建密集的3D 表示。

文献中提出了许多基于学习的立体几何视觉方法。比较流行的代表是PSMNet,它采用3D 卷积编码器-解码器聚合并正则化一个4D代价体,然后使用soft argmin从聚合代价体中回归视差图。这种基于4D代价体滤波的方法可以有效地挖掘立体几何信息,并在一些基准上取得令人印象深刻的表现。然而,它们通常需要大量的3D卷积来进行代价聚合和正则化,从而产生很高的计算和内存代价。因此,它们很难应用于高分辨率图像和/或大范围场景。

最近,迭代方法在高分辨率图像和标准基准上都表现出了有吸引力的性能。与现有方法不同的是,迭代方法绕过了计算代价高昂的代价聚合操作,通过从高分辨率的4D代价体中反复获取信息,逐步更新视差图。该解决方案可以直接使用高分辨率代价体,因此适用于高分辨率图像。例如,RAFTStereo利用多级卷积门控循环单元(ConvGRU)使用从全对相关(APC)中检索的局部代价值周期性地更新视差场。

然而,如果没有代价聚合,原始代价体缺乏非局部几何和上下文信息(参见图2(b))。因此,现有的迭代方法在处理病态区域(如遮挡、无纹理区域和重复结构)的局部模糊性方面存在困难。尽管基于ConvGRU更新器可以通过结合上下文特征和隐藏层的上下文和几何信息来改善预测的视差,但是原始代价体的局限性极大地限制了每次迭代的有效性,从而产生大量的ConvGRU迭代以获得令人满意的性能。我们认为基于聚合的方法和迭代方法具有互补的优点和局限性。

图2.(a)输入KITTI 2015图像。(b)从RAFT-Stereo中的全对相关性(APC)回归的视差图,(c)从我们的几何编码体积(GEV)回归的视差,(d)我们的最终视差。APC缺乏非局部几何知识,因此难以处理病态区域的局部模糊性。我们充分利用代价滤波和迭代优化的优点:1)利用3D CNN对代价体进行滤波,获得较强的场景表示和边缘光滑的初始视差,ConvGRUs优化初始视差以恢复对象的边缘和细节。

我们认为,基于代价过滤的方法和基于迭代优化的方法具有互补的优点和局限性。前者可以在代价体中编码足够的非局部几何和上下文信息,这对于视差预测至关重要,特别是在具有挑战性的区域。后者可以避免3D代价聚合的高计算和内存代价,但在仅基于全对相关的病态区域的能力较差。为了结合两种方法的互补优势,我们提出了一种用于立体几何匹配的新范式——迭代几何编码体(IGEV)(见图3)。为了解决病态区域引起的模糊性,我们通过使用极其轻量级的3D卷积网络聚合和正则化相关体来计算几何编码体(GEV)。与RAFT- stereo的全对相关相比,我们的GEV在聚合后编码了更多的场景的几何和上下文,如图2(c)所示。GEV的一个潜在问题是,由于3D正则化网络,它可能会在边界和微小细节处出现过度平滑。为了补充局部相关,我们将GEV和所有对相关性结合起来,形成一个组合几何编码体(CGEV),并将CGEV输入到基于ConvGRU的更新算子中进行迭代视差图优化。

我们的IGEV-Stereo在精度和效率方面都优于RAFT-Stereo。性能提升来自两个方面。首先,我们的CGEVConvGRU更新提供了更全面而简洁的信息,在每次迭代中产生更有效的优化,反过来可以显著减少ConvGRU迭代的数量。如图1所示,我们的方法只使用3ConvGRU迭代(即总共100ms用于推断)实现了更小的EPE(0.58),而RAFT-Stereo使用32ConvGRU迭代(EPE0.61,推理为440ms)其次,我们的方法通过soft argminGEV中回归初始视差图,这可以为基于ConvGRU的更新算子提供一个准确的起点,从而产生快速的收敛。相比之下,RAFT-Stereo从初始起点d0=0开始视差预测,需要大量ConvGRU迭代才能达到优化结果。

图1.(a)在KITTI 2012和2015的排行榜上与最先进的立体几何方法比较。(b)随着迭代次数的变化,与RAFT-Stereo在Scene Flow测试集上的性能比较。

我们在几个立体几何基准上证明了我们的方法的效率和有效性。我们的IGEV-StereoScene Flow上达到了0.47的最先进的EPE,在KITTI 20152012(反射)排行榜上,在所有公布的方法中排名第一。在推理速度方面,我们的IGEV-StereoKITTI 2015排行榜的前10种方法中是最快的。IGEV-Stereo还表现出比大多数现有立体几何网络更好的跨数据集泛化能力。基于IGEV构建了两种模型(IGEV-StereoIGEVMVS),分别用于立体几何匹配和MVS当只在合成数据Scene Flow训练时,我们的IGEV-Stereo在真实数据集MiddleburyETH3D表现很好。我们还将我们的IGEV扩展到MVS,即IGEV-MVS,它在DTU上实现了竞争精度。

图3.我们提出的IGEV-Stereo概述。IGEV-Stereo首先构建一个几何编码体(GEV),GEV通过3D CNN对几何和上下文信息进行编码,并将其与全对相关(APC)相结合,形成一个组合几何编码体(CGEV)。然后,我们从GEV中回归初始视差,并使用通过ConvGRU从CGEV中检索的特征迭代更新它。

2. 相关工作

基于代价过滤的方法。为了提高代价体的代表能力,现有的大多数基于学习的立体方法使用强大的CNN特征来构建代价体。然而,在遮挡区域、大的无纹理/反射区域和重复结构中,代价体仍然会受到模糊问题的影响。3D 卷积网络在正则化或滤波代价体方面表现出了巨大的潜力,它可以将可靠的稀疏匹配传播到模糊和噪声区域。GCNet首次采用3D 编码器-解码器架构对4D连接体进行正则化。PSMNet提出了一个带有中间监督的堆叠沙漏3D CNN配合,正则化连接体。GwcNet和ACVNet分别提出了分组相关体和注意力连接体,以提高代价体的表达性,进而提高在模糊区域的性能。GANet设计了半全局聚合层和局部引导聚合层,进一步提高了精度。然而,3D CNN的计算和内存成本较高。通常会阻止这些模型应用于高分辨率的代价体。为了提高效率,研究人员提出了几种级联方法。CFNet和CasStereo以从粗到细的方式构建代价体金字塔,逐步缩小预测的视差范围。尽管它们的性能令人印象深刻,但从粗到细的方法不可避免地在粗分辨率上累积误差。

基于迭代优化的方法。近年来,许多迭代方法被提出,并在匹配任务中取得了令人印象深刻的效果。RAFTStereo提出使用从全对相关性检索的局部代价值周期性地更新视差场。然而,全对相关缺乏非局部信息,难以处理病态区域的局部模糊性。我们的IGEV-Stereo也采用ConvGRUs迭代更新视差。不同于RAFT-Stereo,我们构建了一个CGEV编码非局部几何和上下文信息,以及局部匹配细节,以显著提高每次ConvGRUs迭代的有效性。此外,我们为ConvGRUs更新器提供了一个更好的初始视差图,产生了比RAFT-Stereo更快的收敛。

3.方法

在本节中,我们详细介绍了IGEV的结构(图3),它由一个多尺度特征提取器、一个组合几何编码体、一个基于ConvGRU的更新算子和一个空间上采样模块组成。

3.1. 特征提取器

特征提取器包括两个部分:1)多尺度特征提取网络,用于代价体构建和指导代价聚合;2)上下文网络,用于多尺度上下文特征提取及ConvGRU隐藏状态的初始化和更新。

特征网络。给定左边和右边的图像I∈3×H×W,首先利用ImageNet上预训练的MobileNetV2将图像缩小到原来大小的1/32,然后使用带跳跃连接的上采样块将其恢复到1/4,得到多尺度特征{f∈Ci× H/i × W/i} (i=4,8,16,32,Ci为特征通道)。f4和f4用来构造代价体。fi(i= 4,8,16,32)作为3D正则化网络的指导。

上下文网络。延续RAFT-Stereo,上下文网络由一系列残差块和下采样层组成,在输入图像分辨率的1/4、1/8和1/16处产生128通道的多尺度上下文特征。多尺度上下文特性用于初始化基于ConvGRU的更新操作符的隐藏状态,并在每次迭代时输入ConvGRU中。

3.2. 组合几何编码体

已知从Il和Ir中提取的左特征fl,4和右特征fr,4,我们构造一个组相关体,将特征fl,4(fr,4)分割为Ng(Ng=8)沿通道维度分组,逐组计算相关图:

〈·,·是内积,d是视差索引,Nc表示特征通道。仅基于特征相关性的代价体Ccorr缺乏捕获全局几何结构的能力。为了解决这个问题,我们使用轻量级的3D 正则化网络R进一步处理Ccorr,得到几何编码体CG为:

3D正则化网络R是基于轻量级的由三个下采样块和三个上采样块组成的3D UNet。每个下采样块由两个3 ×3 ×3三维卷积组成。三个下采样块的通道数分别为16、32、48。每个上采样块由4 × 4 × 4组成三维转置卷积和两个3 × 3 × 3的三维卷积组成。遵循CoEx,使用从左特征计算的权重来激励代价体通道,以进行代价聚合。对于一个D/i×H/i×W/i的代价体Ci(i= 4,8,16,32)在代价聚合中,引导代价体激励表示为:

其中σ是sigmoid函数,⊙表示Hadamard点积。插入引导代价体激励操作的三维正则化网络,可以有效地推断和传播场景几何信息,从而得到几何编码体。我们还计算相应左右特征之间的全对相关,得到局部特征相关性。

为了增加感受野,我们采用核大小为2,步幅为2的1D平均池化方法对视差维度进行池化,形成两级CG金字塔和全对相关体CA金字塔。然后结合CG金字塔和CA金字塔,形成一个组合几何编码体。

3.3. 基于ConvGRU的更新操作符

我们应用soft argmin从几何编码体积CG中回归初始的起始视差d0,

其中d为1/4分辨率的预先定义的视差集。然后从d0开始,我们使用三个层级的GRU迭代更新视差(如图3所示)。这种设置有利于迭代视差优化的快速收敛。多尺度上下文特征初始化了三层ConvGRU的隐藏状态。

对于每次迭代,我们使用当前视差dk通过线性插值从组合几何编码体中索引,生成一组几何特征Gf。Gf的计算公式为:

其中dk为当前视差,r为索引半径,p为池化操作。这些几何特征和当前视差预测dk通过两个编码器层,然后与dk连接形成xk。然后使用ConvGRU更新隐藏状态hk1,

其中ck, cr, ch是由上下文网络生成的上下文特征,ConvGRU隐藏状态的通道数为128,上下文特征的通道数也为128。编码器g和编码器d分别由两个卷积层组成。基于隐藏状态hk,我们通过两层卷积解码一个残差视差△dk,然后更新当前视差,

3.4. 空间上采样

我们通过1/4分辨率下预测的视差dk的加权组合输出一个完整的分辨率视差图。与RAFT-Stereo在1/4分辨率下从隐藏状态hk预测权重不同,我们利用更高分辨率的上下文特征来获得权重。我们对隐藏状态进行卷积以生成特征,然后向上采样到1/2分辨率。将上采样的特征与左图中的fl,2连接,得到权重W∈RH×W ×9。我们通过粗分辨率邻域的加权组合来输出全分辨率视差。

3.5. 损失函数

我们计算从GEV回归的初始视差d0上的平滑L1损失:

其中dgt表示真实视差。我们计算所有预测视差{di}上的L1损失。我们按照指数增加,总损失定义为:

其中γ = 0.9。dgt表示真实视差。

4. 实验

Scene Flow是一个合成数据集,包含35454个训练对和4370个测试对,具有密集的视差图。我们使用Scene Flow的Finalpass,因为它比Cleanpass更像真实世界的图像,后者包含更多的运动模糊和散焦。

KITTI 2012KITTI 2015是真实驾驶场景的数据集。KITTI 2012包含194对训练对和195对测试对,KITTI 2015包含200对训练对,200对测试对。这两个数据集都提供了用激光雷达获得的稀疏的真实的真实视差。

Middlebury 2014是一个室内数据集,它提供了15个训练对和15个测试对,其中一些样本处于不一致的光照或颜色条件下。所有的图片都有三种不同的分辨率。ETH3D是一个灰度数据集,有27个训练对和20个测试对。我们使用Middlebury 2014和ETH3D的训练对来评估跨域泛化性性能。

4.1. 实现细节

我们使用PyTorch实现IGEV,并使用NVIDIA RTX 3090 GPUs进行我们的实验。对于所有的训练,我们使用AdamW优化器和范围为[- 1,1]的裁剪梯度。在Scene Flow中,我们训练IGEV-Stereo为200k步,批大小为8。在KITTI上,我们在混合了KITTI 2012和KITTI  2015训练图像对上对预训练的Scene Flow模型进行50k步的微调。我们随机将图像裁剪到320×736,并在训练过程中使用与Raft-Stereo相同的数据增强。对于所有的实验,我们使用一个学习率为0.0002的单周期学习率计划,并在训练过程中使用22次更新迭代。

4.2. 消融实验

CGEV的有效性。我们探索了组合几何编码体(CGEV)的最佳设置,并测试了其有效性。对于这些实验中的所有模型,我们在推理期间执行32ConvGRUs更新迭代。我们以RAFT-Stereo为基准,用MobileNetV2100代替原来的主干。如表1所示,提出的GEV能显著提高预测精度。与RAFT-Stereo的全对相关体相比,GEV能提供非局部信息和场景先验知识,预测误差明显降低。RAFT-Stereo使用初始化为零的初始视差,从而增加迭代次数以达到最佳结果。相比之下,我们应用soft argminGEV回归初始视差加快了收敛速度,并略微减小了预测误差。为了在训练过程中进一步明确地约束GEV,我们使用真实视差进行监督GEV,得到准确的GEV和初始视差。在三维正则化网络处理GEV时,存在边界和微小细节处的过平滑问题。为了补充局部相关信息,我们将GEV和所有对相关体结合起来,形成一个组合几何编码体(CGEV)。所提出的CGEV,即IGEV-Stereo,达到了最佳的性能。

 表1. 在Scene Flow测试集上所提出网络的消融实验。GEV表示几何编码体。基准方法baseline是使用MobileNetV2 100作为特征提取网络的RAFT-Stereo。时间是输入大小为960×540的推断时间。

迭代次数。即使在迭代次数减少的情况下,IGEV-Stereo也能获得优异的性能。如表2所示,我们展示了IGEV-StereoRAFT-StereoScene Flow上的EPE指标。与RAFT-Stereo的全对相关相比,我们的GEV可以提供更准确的几何信息和上下文信息。因此,在迭代次数相同的情况下,当迭代次数减少到1234次时,IGEV-Stereo (G)的性能可以远远优于RAFT-Stereo。例如,仅经过一次迭代,IGEV-Stereo (G)的性能超过RAFT-Stereo 54.63%。我们从GEV中回归初始视差d0并对其进行监督,可以获得一个准确的初始视差进行更新,从而使预测误差明显减小。最后,当改变迭代次数时,我们的完整模型IGEV-Stereo的性能最好,在经过1次迭代时性能超过RAFT-Stereo 69.44%。从表2中,可以观察到,即使只有很少的迭代,我们的IGEV-Stereo也达到了最先进的性能,使用户能够根据自己的需求权衡时间效率和性能。

2迭代次数的消融实验。

配置的探索。3展示了不同配置的结果。即使构建一个1/8分辨率的GEV,仅需要额外5毫秒的时间,我们的方法仍然在Scene Flow上实现了EPE0.49的最佳性能。当使用具有更多参数的特征提取网络时,例如MobileNetV2 120dConvNeXt-B,性能可以进一步提高。

表3. 消融实验。我们最终模型中使用的设置用下划线表示。

4.3. 与最先进方法的比较

Scene FlowKITTI 20122015上,我们将IGEV-Stereo与已发表的最先进的方法进行了比较。在Scene Flow测试集,我们实现了EPE0.47的最佳性能,比CSPNLEAStereo高出39.74%。与经典的PSMNet相比,我们的IGEV-Stereo不仅精度提高了2倍,而且速度也比它快。定量比较如表4所示。我们在KITTI 20122015测试集上评估了IGEV-Stereo,并将结果提交给KITTI在线排行榜。如表5所示,在KITTI 20122015,我们在几乎所有指标上都实现了已发表方法中最好的性能。在撰写本文时,与超过280种方法相比,IGEV-StereoKITTI 2015排行榜上名列第一。在KITTI 2012上,我们的IGEVStereo2像素误差阈值下的Out-Noc指标分别比LEAStereoRAFT-Stereo分别高出10.00%10.93%。在KITTI 2015上,我们的IGEV-StereoD1-all指标上比CREStereoRAFT-Stereo 分别提高了5.92%12.64%。特别是与其他迭代方法(如CREStereoRAFT-Stereo)相比,我们的IGEV-Stereo不仅性能更好,而且速度更快(快2倍)。图4展示了在KITTI 2012年和2015年的可视化结果。我们的IGEV-Stereo在反射和细节丰富的区域表现非常出色。

4. Scene Flow测试集上的定量评估。加粗的:最好的。

5. KITTI 2012KITTI 2015的定量评估。IGEV-Stereo在推理时进行了16次迭代更新。加粗的:最好的。

4. KITTI测试集的可视化结果。前两列显示KITTI 2012的结果,后两列显示KITTI 2015的结果。我们的IGEV-Stereo在无纹理和细节丰富的区域表现非常出色。

我们评估了IGEV-StereoRAFTStereo在病态区域的性能,如表6所示。RAFTStereo缺乏非局部知识,因此难以处理病态区域的局部模糊问题。我们的IGEVStereo可以很好地克服这些问题。IGEV-StereoKITTI 2012反光区域排行榜上排名第一,远远超过RAFT-Stereo。特别地,我们的方法在在反光区域只进行8次迭代的情况下比RAFT-Stereo在相同区域进行32次迭代表现更好。

6. KITTI 2012反射区域(病态区域)上的性能评估。Iters表示迭代次数。

4.4. Zero-shot泛化

由于难以获得用于训练的大型真实数据集,立体匹配模型的泛化能力至关重要。我们评估了IGEV-Stereo从合成数据集到未见的真实场景的泛化性能。在这个评估中,我们使用数据增强在Scene Flow上训练我们的IGEV-Stereo,并直接在Middlebury 2014ETH3D训练集上测试它。如表7所示,我们IGEV-Stereo在相同的Zero-shot设置下实现了最先进的性能。图5显示了与RAFT-Stereo的可视化比较,我们的方法对于无纹理和细节的区域更加鲁棒。

7. 合成数据集到真实数据集的泛化实验。所有模型都在Scene Flow上训练。在Middlebury 2014上使用2-像素误差率,在ETH3D上使用1-像素误差率。

5. Middlebury 2014ETH3D的泛化结果。第二和第三行分别是RAFT-Stereo和我们的IGEV-Stereo的结果。我们的IGEV-Stereo在对于细节结构物体的展现方面表现更佳。

4.5. 扩展到MVS

我们将IGEV扩展到多视图立体几何(MVS),即IGEV-MVS。我们在DTU基准上评估IGEV-MVSDTU是一个包含124个不同场景和7种不同光照条件的室内多视图立体数据集。参照IterMVS的实验设置,将DTU分为训练集、验证集和测试集。我们使用640×512的图像分辨率,输入图像的数量N=5进行训练。我们在DTU上训练IGEV-MVS 32个轮次。评估时,图像大小设置为1600×1152,视图数设置为5,迭代次数设置为32。与IGEV-Stereo相比,IGEV-MVS去除了上下文网络,这意味着ConvGRUs不访问上下文信息。如表8所示,我们的IGEV-MVS获得了最佳的综合得分(overall score),该得分是完整性和准确性的平均值。特别是,与PatchmatchNetIterMVS相比,我们的IGEV-MVS整体性能取得了8.0%10.7%相对提高。

8. DTU的定量评价。方法分为两类(从上到下):传统和基于训练。

6. DTU测试集的结果可视化。

5. 结论及未来工作

我们提出了迭代几何编码体(IGEV)是一种用于立体匹配和多视图立体几何(MVS)的新型深度网络架构。IGEV构建一个组合的几何编码体,编码了几何和上下文信息以及局部匹配细节,并迭代地对其进行索引以更新视差图。我们的IGEV-Stereo在KITTI 2015排行榜所有发表的方法中排名第一,并实现了最先进的跨数据集泛化能力。我们的IGEV-MVS在DTU基准上也取得了具有竞争力的性能。

我们使用一个轻量级的3D CNN来过滤代价体并获得GEV。然而,当处理具有较大视差范围的高分辨率图像时,使用3D CNN来处理产生的大尺寸代价体仍然会导致较高的计算和内存成本。未来的工作包括设计一个更轻量级的正则化网络。此外,我们还将探索级联代价体的利用,使我们的方法适用于高分辨率图像。

猜你喜欢

转载自blog.csdn.net/qq_43307074/article/details/128637824