姿态估计 - Simple Baselines for Human Pose Estimation and Tracking

0. 前言

本文方法的设计思路与众不同：简单的方法能达到怎样的精度？
- 按照这个思路提供了姿态估计与姿态追踪的baseline。
单人姿态估计baseline
- 在ResNet后面添加一些转置卷积。可以看出，我们的结果比CPN、Hourglass容易很多，且我们的结果使用转置卷积（而不是双线性插值）作为上采样方式，且没有使用skip connection（应该是block间没有skip connection，但block中有没有需要看下源码）。
人体姿态追踪baseline
- Pose Track问题描述
  - 已知前一帧的所有人物姿态以及对应人物id，当前帧所有人物姿态
  - 求当前帧所有人物id
- 以前的方法（PoseTrack 2017的冠军方法）
  - 先使用Mask R-CNN进行多人姿态估计
  - 再使用基于贪心二分匹配：前一帧与当前帧结果进行二分匹配计算相似度，选择最高的两个进行匹配使用相同的id，依次执行上一部，如果当前帧还有剩下的就分配新的id
- 主要改动：use optical flow based pose propagation and similarity measurement
  - 人体bbox的来源有两种，一是当前帧Mask R-CNN结果，二是上一帧结果以及光流估计的bbox（详情参考论文3.2）。
  - 计算两个bbox的相似度，提出了一种基于流的体改相似度指标，详情参考论文3.3。
- 总体流程如下