Attention-Aware Multi-View Stereo

Attention-Aware Multi-View Stereo :一种用于多视点立体视觉学习的注意感知深度神经网络。
摘要:提出了一种新的注意力增强匹配置信度(代价体),将特征中获得的原始像素级匹配置信度与局部场景的上下文信息相结合,以提高匹配的鲁棒性。在此基础上,开发了一种由多层射线融合模块组成的注意引导正则化模块,将匹配置信度逐层聚合并正则化为潜在深度概率体。
创新点:
1、设计了一个注意增强匹配置信量,它同时考虑了局部场景的感知信息和上下文信息,以提高匹配的鲁棒性。
2、提出了一种新的注意力引导正则化模块,用于以自顶向下/自底向上的方式层次聚合和正则化匹配置信量。
3、将筛选泊松地表重建方法与基于可见性的地表重建方法相结合,提高现有ground-truth深度图的质量。

1、网络结构

网络首先使用编码器网络从输入图像中提取感知特征,然后使用它们构建注意力增强匹配置信量(构建代价体)。接下来,它通过注意引导的分层正则化模块(RFM)正则化匹配置信度,然后是深度回归来预测深度图。架构图如下在这里插入图片描述

1.1特征提取

论文介绍特征提取模块参考P-MVSNet特征提取网络,但是对于通道数进行了改变,最后conv2_2的通道数为64,最后使用1×1的卷积块作为最后一层,共十层特征提取网络,输出[H/4,W/4,16]特征,此外原方法中的BN和ReLUctant替换成了Instance Normalization和 LeakyReLU。

1.2注意力增强匹配置信度

这里将图片一致性信息与来自参考图像和相应源图像特征图的上下文线索结合起来,构建了一个注意增强匹配置信度。
首先,通过全局平均池将所有提取的图像特征映射压缩到各自的通道描述符{vi}中(把每个特征体压缩到单通道vi ,沿深度方向计算)。根据它们,计算局部场景的上下文通道统计wv,如下所示:
在这里插入图片描述
接下来wv通过squeeze-and-excitation块计算注意力通道加权向量Wv ,相当于输入一个网络中得到输出。
在这里插入图片描述
最后得到第j个深度平面上的注意力增强匹配置信图 Mj* ,“⊙”表示信道相乘,“⊚”表示单应性变化和原始像素置信度匹配 。在这里插入图片描述
对于j = 0,1,····,z1,其中Z是采样假设深度平面的总数,Mj表示基于扭曲特征图中生成的原始像素级置信度图(也就是根据方差计算得到的代价体),不同的场景对一些通道拥有不同的权重,而对另一些通道拥有相似的权重;对于每个场景,不同的通道拥有不同的权重。
在计算完所有的注意增强匹配置信度图后,沿着深度方向将它们堆叠起来,以产生一个注意增强匹配置信度体积M *,它将被送入正则化模块。

1.3注意力引导的层次正则化

M*通过两个步幅分别为1和2的卷积块被编码为两个非正则匹配的置信体R’0和R’1,接着下采样生成R’2和R’3,因此得到四层非正则匹配置信体{R’i}。接下来,基于多个射线融合模块(rfm)和一个简单rfm,分层正则化过程从第3级(底层)的R’3开始。RFM用于0级、1级和2级,其结构如图所示在这里插入图片描述
RFM由前置上下文理解模块、射线注意模块(RAM)和后上下文理解模块组成。两个上下文理解模块都由三个三维卷积块组成,其中前上下文模块中的第二个块通过增加通道对匹配置信度进行下采样,后上下文模块中的第二个块进行反向操作。l-1层的计算如下式在这里插入图片描述
Re l-1是由R’l-1提供的前上下文理解模块的输出,Rl是level l上正则化的匹配置信体,⊕表示逐元素相加,射线加权图wr*由wr =|Re l-1-Rl|用与式(2)相同。然后,通过后上下文理解模块对Re l-1进行进一步处理,得到正则化匹配置信度Rl-1

简单RFM是通过从RFM中删除RAM和上采样和下采样操作来创建的,但保持从第二层到第五层的残余连接。注意,它只在Level 3上用于将R’3正则化到R3中,这可以避免训练和评估样本的过度裁剪。
核心做的事情就是充分利用上下两层的信息,该减的地方减,该补回来的地方补回来

1.4深度回归和损失函数

在得到正则化的R0后,首先应用三维卷积层将其编码为深度概率体积V。每个采样深度d的概率由V通过Softmax运算σ(·)计算。与MVSNet相同,每个标记像素处的预测深度d计算为:在这里插入图片描述

损失计算,
在这里插入图片描述
loss_depth:计算完est和gt差的绝对值之后不再除总个数,而是除以有真值点的总数,Nd表示标记像素的总数(i, j), δ = (Dmax Dmin)/(Z-1)是假设深度平面之间采样间隔的长度,在这里插入图片描述

为了保证预测深度图与地面真实深度图之间深度梯度的一致性,定义梯度间正则化损失为:在这里插入图片描述
Nx表示在x方向上相邻像素点也被标记的标记像素的数目,ϕx是对应的x方向上的深度导数,Ny和ϕy表示在y方向上的相似信息

点云重建

在获得所有深度图后直接使用深度图滤波和融合方法来重建一个完整的三维点云。另一方面,对于深度范围较大的高分辨率场景,由于GPU内存的限制,可能无法采样足够多的假设平面,以获得令人满意的精度来估计深度图。为了缓解这个问题,建议通过最大化像素级视图选择的多视图光度一致性来进一步细化生成的深度图。用D0表示来自AttMVS的参考图像I0的预测深度图,用θi,j表示与I0的每个像素(i, j)相关的正确深度。细化过程可以定义为在这里插入图片描述
这里利用了其他一些公式的定理,没有详细说明。

猜你喜欢

转载自blog.csdn.net/qq_44708206/article/details/129037925