姿态估计相关研究进展

自上而下：就是先检测包含人的框，即human proposal，然后对框子中的人进行姿态估计。一般RCNN（区域CNN就是这个思路）

自下而上：先检测keypoint，然后根据热力图、点与点之间连接的概率，根据图论知识，基于PAF（部分亲和字段）将关键点连接起来，将关键点分组到人。

1、CMU：openpose 研究多人的姿态估计

运行环境：caffe

自下而上，关键点被分组到人的实例

时间：2.8-3.4fps

开源,Github: https://github.com/CMU-Perceptual-Computing-Lab/openpose

2、谷歌：

（1）deepgaze 研究头部姿态和注意力方向的，开源

主要为头部姿态估计先框出人脸区域，再进行姿态估计。

运行环境：tensorflow+python

运行速度较快，基本满足实时性，准确度略差。

开源。Github: https://github.com/mpatacchiola/deepgaze

（2）野外多人姿态估计：Towards Accurate Multi-person Pose Estimation in the Wild 自上而下（up-bottom）的方法，把姿态估计器放在边界框的输出后。

未开源

3、UCLA：

(1)《Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations》2014

(2)《Joint Multi-Person Pose Estimation and Semantic Part Segmentation> ( ICCV 2017, UCLA)》自上而下

时间需要8s一张图。

4、Facebook： 2018

mask RCNN:https://github.com/facebookresearch/Detectron

该开源项目可以进行人-物交互识别，如有人拿着手机在耳朵边，则可判定为人在打电话，人手上捧着书，则人在读书。网络通过目标检测和语义分割联合进行，从而进行行为识别。

据说keypoint检测和openpose差不多，效果略差于openpose.可见时间也提不上去。

Caffe2+python

5、deepercut： 2016

基于tensorflow

其具体思路即（类似openpose）：提出人体部件的候选区域，每个候选区域作为一个节点，所有的节点组成一个密集连接图，节点之间的关联性作为图节点之间的权重，将其作为一个优化问题，将属于同一个人的部件（节点）归为一类，每个人作为一个单独类。

（1）采用了Resnet(残差网络)来提高body part的检测，更加的有效，精度更高；

（2）使用了image-conditioned pairwise terms可以将得到足够丰富的候选区域节点压缩到一定数量的节点，而这也是整个论文的核心部分，也是stronger & faster的主要原因。通过候选区域节点之间的距离来判断是否为不同的重要关节点。

https://github.com/eldar/deepcut-cnn

时间：230s/frame（太慢了）

6、《RMPE: Regional Multi-Person Pose Estimation》ICCV 2017 腾讯优图和上海交大联合研究的。它对于多人姿态估计的方法采用传统的自顶向下的方法，即先检测人，再识别人体姿态。检测使用的是SSD-512，识别人体姿态使用的是state-of-the-art的Stacked Hourglass方法。

论文地址：https://arxiv.org/abs/1612.00137v3

项目主页：RMPE: Regional Multi-person Pose Estimation

http://blog.csdn.net/qq_36165459/article/details/78330800

人体姿态数据集：

LSP

地址：http://sam.johnson.io/research/lsp.html √

样本数：2K

关节点个数：14

全身，单人

FLIC

地址：https://bensapp.github.io/flic-dataset.html √

样本数：2W