论文：Monocular Depth Estimation Using Laplacian Pyramid-Based Depth Residuals（基于拉普拉斯金字塔深度残差的单目深度估计）

第四招：特征融合

在这里插入图片描述
如图，经过前三招以后，得到了输入图像的各种特征图，接下来就是对得到这些特征图就是融合。
R₅怎么来的呢？
它是由S/16的特征图经过ASPP以后，再进行一系列的卷机得到。其中最后一次卷积时输出的特征图个数为1，则就生成了R₅，即输出一个含有深度信息的特征图。
所以，简单来说，R₅是由原始图像经过一系列的卷积，再加上ASPP以后得到的，所以得到的特征信息就比较简单（比较片面），因为此时还没有用到差异信息，以及其他阶段的特征信息，比如S/8、S/4和S/2。

R₄怎么来的呢？
在这里插入图片描述
如图，由四个部分拼接而成。
第一部分：由S/16特征图的ASPP模块上采样得到，即Upconv block，即蓝色块。而红色块则是由S/8特征图经过卷积得到的。
第二部分：差异L₄，它作用于两处，第一处和第一部分、第三部分拼接，形成第四部分；第二处是和第四部分拼接形成R₄。
第三部分：由R₅经过上采样得到
第四部分：由第一部分、第二部分和第三部分经过拼接以后，再卷积得到。

R₄相对于R₅来说，所蕴含的信息就更加的丰富。因为它既包括了差异信息L₄，又有了本身S/8特征图信息（第一部分中的红色块）、S/16特征图信息（第一部分中的蓝色块）、R₅的信息（第三部分）。所以，简单说，R₄就是把之前的信息进行汇总得到的结果。

同理，继续做拼接、上采样就能得到R₃、R₂和R₁。

第五招：Coarse-to-Fine

所研究的目标就是D₅、D₄、D₃、D₂和D₁怎么得到的。
在这里插入图片描述
得到的过程其实也很简单，D₅就是R₅。
D₄是对D₅进行上采样，然后再和R₄拼接形成。
D₃是对D₄进行上采样，然后再和R₃拼接形成。
D₂是对D₃进行上采样，然后再和R₂拼接形成。
D₁是对D₂进行上采样，然后再和R₁拼接形成。
过程很简单，但是这里蕴含的思想却很有意思，即Coarse-to-Fine。即由粗到细，或者说是由简约到精细。

什么意思呢？
先看D₅，它就是R₅。而R₅又是由原始特征图经过一系列卷积卷积，最后输出得到的，所以R₅特征图信息很少，或者说很片面。这个片面就是说它没有借鉴或者融合其他特征图的信息，比如差异的信息，或者其他倍数（S/8、S/4、S/2）特征图的信息。虽然R₅经过输出以后，它也能反应图片的深度信息，但是由于它片面了，信息少了，所以导致得到的结果就很“粗”。

而在第四招，即特征融合的相关操作，就是不断的去叠加各种信息，从而为最后得到的R₁做铺垫，这其实就是不断“精细”的过程。这也就是Coarse-to-Fine的思想。

第六招：权重参数预处理

在这里插入图片描述
由于Relu激活函数的特性，会导致网络在学习的过程中，它的参数会被Relu激活函数“杀死”很多。所以作者提出：在做权重参数初始化的时候，给权重参数做预处理，这个预处理的目的就是为了让权重参数值的分布更均匀。

深度估计（二）

论文：Monocular Depth Estimation Using Laplacian Pyramid-Based Depth Residuals（基于拉普拉斯金字塔深度残差的单目深度估计）

第四招：特征融合

第五招：Coarse-to-Fine

第六招：权重参数预处理

猜你喜欢