姿态估计 - Stacked Hourglass Networks for Human Pose Estimation

0. 前言

1. 要解决什么问题

  • 当时对卷积神经网络在姿态估计中的研究还不充分,还在探索各类新的结果来处理姿态估计问题。
  • 姿态估计的最终目标,是确定各个关键点在原始图像的哪个像素中,所以肯定是downsample再到upsample的过程。

2. 用了什么方法

  • hourglass的设计灵感来源于——需要提取所有尺寸的信息。

  • Hourglass的总体结构如下图所示

    • 即特征图尺寸不停地缩小、增加、缩小、增加。
    • image-20201231094139028
  • 对于每一个沙漏,其结构如下

    • image-20201231094222478
  • 论文中有张图这里放下

    • 每个沙漏中的每个方框的结构对应左图。
    • 右图介绍了Intermediate Supervision。
      • 怎么翻译,中间监督?怪怪的。
      • 意思就是,网络是由多个hourglass组成的,每个hourglass都要输出一次预测结果(即关键点热力图,下图中蓝色的框),并计算损失函数。
    • image-20201231095144951

3. 效果如何

  • 当时在FLIC和MPII上都达到了SOTA。现在放图也没有太大用处,毕竟几年前的了,需要的自己看论文吧。
  • 训练细节随便记录一点
    • 单人姿态估计问题
    • 图像尺寸是256x256
    • 数据增强用了旋转
    • 损失函数是MSE
    • GT使用了2D高斯分布

4. 还存在什么问题&可借鉴之处

  • 应该属于目前姿态估计中常用的backbone了,centernet其实也有使用hourglass作为backbone的情况。
  • 不过感觉这网络还是比较复杂,估计比较大,时间性能一般。

猜你喜欢

转载自blog.csdn.net/irving512/article/details/112003268