2D多人关键点:《Deep High-Resolution Representation Learning for Human Pose Estimation》

版权声明:未经博主允许,不得转载! https://blog.csdn.net/u011681952/article/details/88035348

《Deep High-Resolution Representation Learning for Human Pose Estimation》

  来源:中科技大学,微软亚洲研究院
  论文:https://arxiv.org/pdf/1902.09212.pdf
  源码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

0 前沿

  本文设计了新的人体姿态估计模型,刷新了三项COCO纪录,还中选了CVPR 2019。

  简称HRNet,拥有与众不同的并联结构,可以随时保持高分辨率表征,不只靠从低分辨率中恢复高分辨率表征,其在姿势识别的效果明显提升:

  不但如此,HRNet在COCO数据集的关键点检测、姿态估计、多人姿态估计这三项任务里,HRNet都超越了所有前辈。

1 相关研究

  本文重点在其HRNet结构上,其他研究与前面点一些人体姿态论文(CPNSimplePose等)并无差异,可以参见本人前期博客,这里就忽略了,重点来看看HRNet结构

2 HRNet

2.1 整体思路

  在人体姿态任务中,之前一些方法,如CPN,SimplePose等,重建高分辨率表征都是从低分辨中恢复的,一般是通过一个从高到低分辨率网络结构(如VGG,Resnet)中用低分辨率恢复高分辨率表征;在CPN中有提到过,较高的空间分辨率有利于特征点精确定位,低分辨率具有更多的语义信息
  我想作者也是基于了这一细想(个人理解),设计了高低多分辨率网络并联的网络结构来提取特征,如下图


在这里插入图片描述

  1)它从一个高分辨率的子网络开始,慢慢加入分辨率由高到低的子网络。
  2)HRNet结构分为纵向Depth和横向Scale两个维度
  3)横向上,不同分辨率点子网络并行(parallel)


在这里插入图片描述

  4)且进行多分辨率信息融合(multi-scale fusion),即 exchange unit


在这里插入图片描述

  5)输出热力图

2.2 整体结构

   1)整体流程:4 stages
   input–>>stages1(conv1–>bn1–>conv2–>bn2–>layer1)–>>stages2(transition1–>stage2)–>>stages3(transiton2–>stage3)–>>stages4(transiton3–>stage4)–>>final_layer
   2)stages1与resnet50第一个res2相同,包括4个bottleneck
   3)stages2,3,4分别拥有1,4,3个exchange blocks;每个exchange blocks也包含4个bottleneck构成
   4)从上到下,每个stages分辨率减半,通道增倍,文中提到HRNet-W32和HRNet-W48,指的是这些stage的通道数不同,但结构相同
   5)从整体上看,与resnet50极为相似,但多了些过渡单元transition和并行子网络,以及exchange需要的操作

3 Experiments

  1)采用ImageNet预训练,在COCO validation set上对比


在这里插入图片描述

  2)在COCO test set上对比


在这里插入图片描述

  3)在MPII test set上对比


在这里插入图片描述

  4)在PoseTrack2017 test set上的姿态跟踪对比


在这里插入图片描述

  5)效果


在这里插入图片描述

4 延展

  除了估计姿势,这个方法也可以做语义分割,人脸对齐,物体检测等


在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u011681952/article/details/88035348