2D行人姿态估计和跟踪：Simple Baselines for Human Pose Estimation and Tracking

论文网址：https://arxiv.org/abs/1804.06208
论文代码：https://github.com/Microsoft/human-pose-estimation.pytorch
论文类型：2018 ECCV

1.简介

本论文介绍了人体姿态估计和跟踪方法。
虽然目前在人体姿态估计数据库MPII和COCO human pose上取得了很好的效果，但simultaneous pose detection and tracking in the wild仍然是挑战。
本文没有什么理论证明和创新思想。只是利用对比实验，提出一个较为简化直观的模型，但是性能还是挺好的。

2.姿态估计

网络结构：在ResNet后面（C5层）加了3层deconvolutional layers。

这3层反卷积都用了batch normalization和ReLU activation；每层都有256个滤波器和4×4的卷积核；步长stride为2；最后加一个1×1的卷积层来生成k个key points的预测热图heatmaps{ H1…Hk}。

Mean Squared Error (MSE)作为预测热图和目标热图的loss。关节k的目标热图通过在第k个关节的ground truth位置上应用2D高斯获得。

在这里插入图片描述
图（a）是Hourglass方法的结构，图（b）是Cascaded pyramid network (CPN)方法的结构。
与这两种方法对比，图（c）即本文提出的网络结构简单，但是
效果却很好。

这三种方法的共同之处是都使用3个上采样和非线性来获得高分辨率的feature maps 和 heatmaps。因此，获得高分辨率的特征图很重要，如何获得并不重要。

3. 基于光流(Optical Flow)的姿态跟踪

视频中多人姿态跟踪方法：先估计每帧中人的姿态，然后通过分配一个特有的ID来在不同帧之间对人体姿态进行跟踪。
k帧中的实例与k-1帧中的实例匹配上的话，id 从k-1繁衍到k，如果匹配不上，重新创建一个id。
通过greedy bipartite matching algorithm来逐帧进行匹配。

文中的跟踪算法主要是follow文献[11]的方法，但是在2个地方进行了改进：（1）有2个不同的human box，一个是来自human检测器，另一个是上一帧的box通过光流产生本帧的box。（2）在通过贪婪匹配算法(greedy matching algorithm)生成相似度度量(similarity metric)中，本文使用了基于光流的相似度度量。

3.1 使用光流进行关节点传播(Joint Propagation)

视频中的motion blur and occlusion会导致检测错误或者检测丢失，使用光流信息能产生更鲁棒的检测效果。

能通过将k-1中的关节坐标传播到k-1与k之间的光流图中获得k帧中的关节坐标。

通过光流获得关节点坐标集合之后计算bounding，然后扩大15%获得基于光流box。

3.2 基于光流的姿态相似度

bbox的相似度度量SBbox：使用两个bbox的IoU(Intersection-over-Union)来表示；
姿态的相似度度量SPose：使用Object Keypoint Similarity (OKS)计算两个行人实例的body joints的距离来表示。

在这里插入图片描述

为避免跟踪丢失问题，使用Jk来自之前的多帧繁衍，用表示。

3.3 基于光流的跟踪算法

方法流程：
1.确定bbox。将检测的bbox和基于光流估计的bbox采用Non-Maximum Suppression (NMS)进行统一；
2.对bbox进行剪切和resize，然后采用第二节设计的pose estimation方法进行姿态估计。
3. 再按照基于光流的跟踪对检测到的行人实例的姿态进行不断的更新。

算法表示：
在这里插入图片描述

注：其中第8步，获取k帧基于光流的bbox方法是将k-1帧的关节点集合通过光流图得到k帧的关节点集合，再将这些关节点按照3.1节方法得到k帧的行人实例的bbox。