HRNetV2:融合所有分辨率的特征

论文地址:https://arxiv.org/pdf/1904.04514.pdf

目录

0、摘要

1、引言

2、相关技术

3、本文方法

3.1、网络结构

3.2、改进的部分

4、结论


0、摘要

高分辨率表示学习在很多视觉任务,如姿态估计、语义分割上,均扮演着重要角色。高分辨率网络(HRNet),是最近开发的(2019年)用于人体姿态估计的方法,通过并行连接高、低分辨率的卷积层使得在整个过程都保持高分辨率表示,并在并行卷积之间反复融合。本文通过引入一种简单有效的修改来进一步研究高分辨率表示,并将其应用到多种视觉任务上。通过从所有并行的卷积聚合(上采样的)表示来增强高分辨率表示,而不是仅仅聚合高分辨率卷积。优秀的实验结果可以证实:这种简单修改,获得了更强的表示。在 Cityscapes、LIP、PASCAL Context、AFLW面部关键点检测、COFW、300W以及WFLW等基准集上均获得了顶尖的性能。此外,还从高分辨率表示中构建了多级表示,并用于Faster RCNN目标检测及其扩展框架,该方法在COCO目标检测任务上超过了所有的单模型网络。代码及模型参见:https://github.com/HRNet

1、引言

深度可学习的表示被证明是强大的,并在多种视觉任务上取得SOTA。主要有两种表示:

  • 低分辨率表示,主要用于分类;
  • 高分辨率表示,对于某些视觉任务,如语义分割、目标检测、人体姿态估计等,是必不可少的。

本文关注的正是后者,其仍悬而未决且吸引关注。

计算高分辨率表示有两条主线:

  • 一种是从低分辨率表示恢复到高分辨率,如SegNet、DeconvNet、U-Net等;
  • 另一种是通过高分辨率卷积以及使用并行的低分辨率卷积来强化表示,从而保持高分辨率。

此外,在分类网络中,用扩张卷积代替一些跨步卷积和相关的规则卷积来计算中等分辨率的表示。

本文沿着保持高分辨率表示的研究路线进行研究,并进一步研究高分辨率网络(HRNet)。HRNet通过平行连接高到低分辨率的卷积并在平行卷积上反复进行多尺度融合来维持高分辨率表示,由此产生的高分辨率表示不仅是强大的,而且是空间精准的。本文提出的HRNetv2不仅仅融合高分辨率特征,也融合其他的低分辨率特征,从而能获取更强的特征表示,实验也证明比HRNet更优。

2、相关技术

低分辨率表示的学习:如FCN及其扩展,通过DCNN逐步获取低分辨率的高级语义特征,然后通过上采样得到粗糙的分割map;

高分辨率表示的恢复:如U-Net系列的Encoder-Decoder结构,从低分辨率的特征逐步恢复至高分辨率,得到的分割map更精细;

保持高分辨率表示:如HRNet,从头到尾都保持着高分辨率。

3、本文方法

不同于第2节中的三种方式,本文是“学习高分辨率表示”。

3.1、网络结构

结构与HRNetv1相似,如图1所示:

网络包括四个stage,第一个stage维持原始分辨率,第二、三、四个stage分别维持了2、3、4种分辨率的feature map,由重复模块化的多分辨率块( multi-resolution blocks)组成。

 multi-resolution blocks如图2所示:

图2(a)为多分辨率分组卷积,(b)为多分辨率卷积,(a)和(b)的关系,类似于普通卷积和全连接的关系,如图2(c)。

(b)中的分组卷积块,是普通分组卷积的扩展,其将输入、输出的所有通道分为多个子集,每个子集以全连接的方式进行连接,且每个连接都是一个常规卷积,输出通道的每个子集是输入通道的每个子集卷积的输出的总和。

通道的每个子集都有不同的分辨率;输入通道和输出通道之间的连接需要处理分辨率下降,通过使用几个2-strided 的3×3的卷积来实现;分辨率的提升则直接用双线性插值上采样。

3.2、改进的部分

 HRNetV1仅有高分辨率卷积的feature maps被输出,而其他分辨率的feature maps则被丢弃;而HRNetV2就是把其他通道的低分辨率的子集也利用了起来。其优点是充分发挥了多分辨率卷积的能力,且这个修改只增加了一个小的参数和计算开销。原始的特征融合方式、修改后的融合方式以及用于目标检测的融合方式如图3所示:

图3(a)仅输出高分辨率特征,(b)融合了多种尺度的分辨率,(c)在(b)的基础上增加了FPN,用于目标检测。

4、结论

本文通过一个简单的修改,对高分辨率表示网络在广泛的视觉应用中进行了实证研究。实验结果表明,改进后的神经网络学习到的高分辨率和多层次表征在语义分割、人脸标志检测和目标检测等方面是有效的。

猜你喜欢

转载自blog.csdn.net/oYeZhou/article/details/112561839