摘要

在自然图像中，物体骨架的尺度（厚度）在物体和物体部分之间可能会发生巨大的变化，使物体骨架检测成为一个具有挑战性的问题。我们提出了一种新的卷积神经网络(CNN)结构，通过引入一种新的分层特征集成机制Hi-Fi来解决骨架检测问题。所提出的基于CNN的方法具有强大的多尺度特征集成能力，它本质上捕捉来自更深层的高级语义以及来自较浅层的低级细节。通过将不同的CNN特征级别与双向指导进行分层集成，我们的方法（1)能够跨不同级别的特征进行相互细化，(2）具有很强的捕获丰富对象上下文和高分辨率细节的能力。实验结果表明，我们的方法在有效地融合来自非常不同尺度的特征方面最先进的方法，这从几个基准的相当大的性能改进中得到了证明。

介绍

对象骨架被定义为前景对象的中轴，周围是封闭的边界[Blum，1967]。与对象边界互补，骨架是基于形状的描述符，它提供了对象几何和拓扑的紧凑表示。由于其在其他视觉任务中的广泛应用，如基于形状的图像检索[Demirci等人，2006年；Sebastian等人，2004年]和人体姿态估计[Girshick等人，2011年；Shotton等人，2013年；Sun等人，2012年]。骨骼检测最近得到了广泛的研究[沈等人，2017年；Ke等人，2017年；Tsogkas和Dickinson，2017年]。

由于骨架尺度（厚度）是未知的，并且可能在物体和物体部件之间有所不同，因此骨架检测必须处理与边界检测相比更具挑战性的尺度空间问题[Shen等人，2016b]，∗M。程M.为相应作者。 (b)(a)©图1：骨架检测面临一个更具挑战性的尺度空间问题：(a)可以用类似大小的过滤器（绿色框）检测物体边界；(b)只有比骨架尺度大一点的过滤器（绿色框)才能捕获适当的骨架检测上下文；不适当的大或小(红色框）都不能很好地感知骨架；©与边界检测和语义分割相比，骨架检测需要不均匀的特征级别。如图所示。 1. 因此，它要求检测器捕获更广泛的上下文，以检测潜在的大规模（厚)骨架，并具有在小规模(薄）骨架的情况下专注于局部细节的能力。

执行多级特征融合一直是像素级密集预测的主要趋势，如骨架检测[Ke等人，2017年]和显着性检测[Zhang等人，2017年；Hou等人，2018年]。这些方法融合了不同层次的CNN特征，以获得更强大的表示。现有特征融合方法的缺点是它们只执行深到浅的细化，这为浅层提供了感知对象和图像背景等高层概念的能力。这些方法中更深的CNN特征仍然受到低分辨率的影响，这是最终检测结果的瓶颈。

模型架构

整体结构

我们实现了基于VGG16[Simonyan和Zisserman，2015]网络的Hi-Fi体系结构，该网络有13个卷积层和2个完全连接层。 VGG网络中的卷积层分为5组：conv1-x、…、conv5-x，一组中有2∼3个卷积层。相邻卷积组之间有步长=2的池层。

在HED中，侧输出只与每个组的最后一个卷积层连接。 RCF(Richer卷积特征)[Liu等人，2017]将侧输出连接到卷积组的所有层。我们遵循这个想法，以获得更强大的卷积特征。下图展示了Hi-Fi的总体结构。三，卷积组用颜色区分，省略了池化层。
在这里插入图片描述

层次特征集成

所提出的特征集成过程的详细说明如下图所示。要集成的特征映射从主网络流分支通过内部卷积层顶部的（1×1）卷积层(标记为(A)的虚线框。这些特征映射进一步集成了元素和(用©标记的框))。最终规模相关的侧输出(框标记为(D))是由（1×1）卷积产生的。请注意，由于池化层的存在，更深的卷积特征映射在空间上小于较浅的特征映射。需要进行上采样(用(b)标记的框)，以保证要集成的所有特征映射具有相同的大小。

理想情况下，特征集成可以递归地执行，直到最后一个集成的特征映射包含来自所有卷积层(conv1-1∼conv5-3)的信息)。然而，由于我们GPU的内存和训练时间的限制，我们最终实现了两级集成。
在这里插入图片描述

双向细化

我们通过与现有体系结构的比较来解释所提出的双向相互细化：FSDS[Shen等人，2016b]和SRN[Ke等人，2017]。如图所示。 5、FSDS的侧输出(side-outputs, SOs)是独立工作的，不同层次的特征之间没有交叉对话。因此，FSDS具有噪声浅SO和低分辨率深SO。然后，SRN通过将深度特征引入到浅层SO，从而引入深到浅的细化。如下图所示。SRN较浅的SO比FSDS要干净得多。尽管有所改善，但SRN中更深的SO仍然受到低分辨率的影响，这限制了最终融合结果的质量。

在我们的体系结构中，SO是建立在附近特征级别的集成之上的，并且递归地执行“附近特征集成。在测试阶段，SO将从更深和更浅的侧面接收信息；在训练阶段，SO的梯度也将向两者反向传播。换句话说，我们的方法不仅明确地实现了深到浅，而且还实现了浅到深的细化。显然如下图所示。高保真获得比FSDS更清洁的浅SO，同时具有比SRN更高分辨率的更深SO。因此，我们在最终的融合结果中获得了很强的质量改进。

在这里插入图片描述

实验效果展示

在这里插入图片描述

参考

https://www.ijcai.org/Proceedings/2018/0166.pdf

骨架提取之Hi-Fi

文章目录

摘要

介绍

模型架构

整体结构

层次特征集成

双向细化

实验效果展示

参考

猜你喜欢