Simple Baselines for Human Pose Estimation 阅读笔记

SimpleBaseline姿态估计阅读笔记

ECCV2018

论文链接
代码链接

摘要: 近年来,姿态估计在取得重大进展的同时,总体算法和系统复杂性也日益增加,加剧了算法分析和比较的难度,本项工作提供了一个简单有效的baseline,来帮助激发并评估该领域的新想法。


1 Introduction

得益于深度学习的发展,人体姿态估计任务已取得很大提升。自先驱工作 DeepPose 和 [Joint training of a convolutional network and a graphical model for human pose estimation] 被提出以来,MPII基准的性能在三年内达到饱和(从约80% [email protected] 提升至 90%以上)。挑战性的COCO人体姿态基准的进展更快,其mAP指标在一年内从60.5(COCO 2016挑战赛冠军)提升至72.1(COCO 2017挑战赛冠军)。随着姿态估计的迅速成熟,最近引入了一项更具挑战性的任务:“在野外同时进行姿态检测和跟踪”
与此同时,姿态估计的网络架构和实验也日趋复杂,加剧了算法分析和比较的难度。,例如,MPII上的领先方法 [Stacked hourglass,Multi-context attention for human pose estimation,Adversarial posenet,Learning feature pyramids for human pose estimation] 在许多细节上差异较大,其准确性相当。此外,COCO上的代表性工作 [Associative embedding,Towards accurate multi-person pose estimation in the wild,Mask r-cnn,Cascaded pyramid network for multi-person pose estimation,Realtime multi-person 2d pose estimation using part affinity fields] 也很复杂且差异很大,但这些工作间主要在系统层面比较,信息量较少。虽然姿态跟踪的相关工作不多,但由于问题维度和解决方案空间的增加,其系统的复杂性会进一步增加。
本文试图从相反的角度简化此问题:“简单的方法性能可以有多好呢?”,为回答此问题,本项工作为姿态估计和跟踪提供了一个简单有效的baseline,希望能激发新想法并简化评估。
本文提出的姿态估计器在ResNet backbone上添加了几个转置卷积层,这可能是从深度低分辨率特征图中估计热图的最简单方法。我们的单一模型在COCO testdev split上实现了sota 73.7 mAP,较 COCO 2017关键点挑战赛winner的单一模型及其集成模型分别提高了1.6%和0.7%
这项工作没有任何理论依据,它基于简单的技术,并通过全面的消融实验进行验证。请注意,尽管我们取得了更好的结果,但我们并没有声称它优于任何先前的算法。我们并未与之前的方法进行完全公平比较,这也并非我们的意图,本项工作的贡献是坚实的baseline

2 Pose Estimation Using A Deconvolution Head Network

ResNet是最常用的特征提取backbone,我们仅在ResNet最后一的卷积层加了一些转置卷积层: C 5 C_5 C5,整体网络架构如图1©所示。这种结构可以说是从深度低分辨率特征生成热图的最简单方法,Mask R-CNN也采用了这种结构。
默认情况下,使用3个具有BN和ReLU激活的转置卷积层,每层有256个4×4 kernel 的 filter,stride=2,最后加一个 1×1 卷积层来生成 k个关键点预测热图 {H1…Hk}。使用 MSE 作预测热图和GT热图间的损失,第 k 关节GT位置作中心生成2D高斯来生成关节 k 的目标热图 H ^ k \hat{H}_k H^k
讨论: 如图1所示,为理解 baseline 的简单合理性,将其与 Hourglass 和 CPN对比。
在这里插入图片描述

图1:(a)Hourglass 中的一个 stage,(b)CPN,(c) SimpleBaseLine

  • Hourglass 是MPII上的主要方法,采用 multi-stage 架构,具有重复的bottom-up、top-down处理和skip layer feature concatenation。
  • Cascaded Pyramid network(CPN)是COCO 2017 keypoint challenge上的主要方法,它包括 skip layer feature concatenation 和一个 online hard keypoint mining step。
    相比于Hourglass 和 CPN,SBL的不同之处在于如何生成高分辨率特征图。Hourglass 和 CPN 都使用上采样来提高特征图分辨率,并将卷积参数放入其他 block 中。相反,SBL 以更简单的方式将上采样和卷积参数组合到反卷积层(原文是 deconvolutional ,但其实使用转置卷积更妥帖)中,而不使用跳跃层连接。

3 姿态估计实验

3.1 Pose Estimation on COCO

COCO Keypoint Challenge 要求在不可控条件下定位多人关键点。COCO train,validation 和 test sets 包含超过20万张图像和25万个具有关键点标注的人体实例,其中的15万个人体实例用于训练和验证。SBL 仅在 COCO train 2017 set(包括57K张图像和150K个人体实例)上进行训练,在val2017 set进行消融实验,最后报告了test-dev2017 set上的最终结果,并与其他模型进行比较。
COCO 评估定义了对象关键点相似性(OKS),并使用 mean average precision (AP) over 10 OKS thresholds作度量。OKS与目标检测中的IoU作用相同,根据预测点和由人体尺度正则化得到的GT点之间的距离进行计算。
训练: 延长gt human box的长或宽为固定比率:height : width = 4 : 3,然后将其从图像中 crop下来,并resize为固定分辨率,默认分辨率:256:192,数据增强包括:scale(±30%),rotation(±40 degrees) 和 flip。
ResNet backbone 通过在ImageNet分类任务预训练初始化,姿态估计的训练中,基本学习率为1e-3,在第90个 epoch 降至1e-4,在第120个 epoch 降至1e-5,共训练140个epoch,Mini-batch size = 128,使用 Adam 优化器,四个GPU。默认使用ResNet-50。

测试: 采用 two-stage 的 top-down 范式,默认使用Faster-rcnn(COCO val2017 上的人体检测精度为 56.4 AP)作人体检测器,根据原始图像和翻转图像的平均热图预测关节位置,从最高响应到第二高响应方向上 1/4 的offset用于获得最终位置。

消融实验:表2对第2节baseline中的各种选项进行了消融实验。
在这里插入图片描述

COCO val2017 set 上的消融实验,被比较的组件以粗体显示,例如(a,e,f)用于比较 backbone。

  1. 热图分辨率:方法(a)使用 3 个转置卷积层生成64×48热图。方法(b)使用 2 个转置卷积层生成32×24热图。在模型容量略有增加的情况下,(a)比(b)高2.5AP。默认使用 3 个反褶积层。
  2. kernel size:方法(a,c,d)表明,较小的 kernel size 略微降低AP,kernel size 从4到2减少了0.3个点。默认转置卷积 kernel size=4。
  3. backbone:与大多数视觉任务一样,较深的 backbone 性能更好。方法(a,e,f) 从ResNet-50到ResNet-101,AP增加1.0,从ResNet50到ResNet-152,AP增加1.6。
  4. Image size:方法(a,g,h)的结果表明图像大小对性能至关重要。从方法(a)到(g),图像尺寸减小一半,AP下降,但同时也节省了75%的相对计算量。使用较大图像的方法(h)以较高的计算成本为代价,较方法(a)提升了1.8 AP。

COCO val2017上与其他方法比较:
在这里插入图片描述

表3.COCO val2017 set上与Hourglass和CPN[6] 的比较。OHKM是指 Online Hard Keypoints Mining。

COCO test-dev set上的比较:

在这里插入图片描述

表4.COCO test-dev set的比较。top:仅在COCO train set上训练。middle:提交给COCO test-dev 排行榜的结果,其中有额外的训练数据(*)或模型(+)。bottom:SBL单一模型结果,仅在COCO train set上训练。

4 Conclusions

本文提出了一个简单有效的的姿态估计和跟踪 baseline,并在具有挑战性的基准上取得了 sota。该研究希望 SimpleBaseLine 通过简化 idea development 和 evaluation 使该领域受益。

猜你喜欢

转载自blog.csdn.net/unauna9739/article/details/127691734