姿态检查整理--07-RMPE: Regional Multi-Person Pose Estimation

转载来源：https://blog.csdn.net/daniaokuye/article/details/78645633

RMPE: Regional Multi-Person Pose Estimation

多人姿态估计top-down方法，多人情况下小的定位与识别的错误难以避免，这篇文章提出的方法是regional multiperson pose estimation（RMPE），包括三个部分： Symmetric Spatial Transformer Network (SSTN), Parametric Pose Non-Maximum Suppression (NMS), and Pose-Guided Proposals Generator (PGPG). 空间转换网络，身体部件位置获取，姿态候选发生器。

总体框架：

多人检测比单人检查要复杂，现在的网络一般是分成两个阶段。或是先检测个体再检测身体部件，或是先检测身体部件，然后再检测个体。两种方法各有利弊，先检测个体严重依赖这个检测个体的结果。先检测部件呢，组合这些部件的方法当人靠的比较近的时候有点不靠谱，而且这种方法目前无法利用全局特征去发现身体部件。

目前的人体检测方法会产生两个主要问题：定位错误，以及多余的检测结果，尤其是SPPE （singal person pose estimation）。这篇文章就是为解决这个问题而来的，提出了RMPE方法。包括了三个模块：Symmetric Spatial Transformer Network (SSTN)用于在不准确的bounding box下仍能提取准确的单个人的范围，这是组合到SPPE里面的。NMS是处理多余的候选框的，它是采用了新的距离量测的方法来计算姿态的相似度，且是数据驱动的，不是预先设定的。PGPG用于增多训练样本。

领域的小历史：

SPPE{单人姿态检测}：

传统方法使用图形结构， pictorial structure models比如 tree models [37, 30, 40, 36] 以及 random forest models [31, 8] 就用在了人体姿态检测上。图形的模型Graph based models 比如random field models [20] 还有dependency graph models [14]也有广泛应用 [13, 32, 21, 26]。不得不提的是，random field models在神经网络中也有改型，{论文Multi-Context Attention for Human Pose Estimation}。
神经网络的人体姿态检查的代表性作品有DeepPose (Toshev et al) [34], DNN based models [24, 11] and various CNN based models [19, 33, 23, 4, 38]

多人检测：

bottom-up方法（这篇文章中称为part based framework）：
代表性的有[7,12,35,27,17]。[7]使用图形模型能提取被遮挡的人，[12]使用k-poselets检测人以及预测身体部件的位置（有点类似与K-means，只是需要means的特征空间是身体部件），[27]提出的是Deepcut，经典两步走，part detect & assemble，还有[15]提出的基于ResNet的模型，[17]提出的优化策略deepercut。（但就网络来说，有FCN全连接网络，ResNet，以及Hourglass）
top-down方法（这篇文章中称为 two-step framework）：
多人的2017年之前的工作比如deepercut，基于Faser Rcnn的方法。

RMPE

这里写图片描述
包含的步骤如图所示，STN和2D仿射变换[18]，SDTN是STN的反过程。这两个过程作者当然有给出了正反变换。变换的目的是为了提取高精度的人体范围。然后，STN后面加了特别的结构，一个并行的SPPE，这个结构不是为了姿态而设计的，是为了反馈得到准确的位置center-located。然后这个过程之后就是普通的SPPE单人姿态检查了，单人姿态检测中会得到产生多余候选框的问题，这篇论文也给出了一个解决方案，parametric pose NMS。
那NMS是怎么回事：从多余的候选框中选择参考，置信度最高的作为参考。和参考相似的就被消除，elimination criterion，直到只剩下一个候选框。‘相似’这篇给出了自己的定义pose distance：a soft matching function得到姿态和关节大致的（softly）匹配度，最后的距离公式还加入了身体部件的距离。

优化：

本来这个没什么，因为是具体的框架设计的具体的结构（eliminate criterion）而设计的优化策略，即它只服务于这一个结构，而非模块化的东西。但这一块透露出作者对神经网络深刻理解，尤其是“怎么将普通算法设置成网络的形式”。原文摘录如下：
这里写图片描述

后面高能：

在如何实施上，作者放大招了：他将人体姿态设置为原子姿态（没什么新意），然后将躯干缩放到相同长度（有点意思喽，同是今年2017年的论文有人做过pose normalization），然后根据调整后的姿态做聚类（同为今年的论文有人做过基于模式的人类姿态估计PAF），然后区分处理不同特征。不过，说到姿态的聚类，早在2014年就有人做过[Articulated pose estimation by a graphical model with image dependent pairwise relations. In: Advances in Neural Information Processing Systems (NIPS).]根据这个时间点来看，当时可能不会太好，还要去看看。

不知作者是有心还是无意，这种大招放到一个附属地位来写，反倒是他的网络，仅做了不惊喜的更新（相当于扩展了Hourglass到多人场景，迫不得已加的附件）。当然，还有一种可能，作者可能完全没意识到这点的意义，或许这儿有个机会。实际上，他扩展很少，是将PAF [ Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields（发表于2017年4月14）] “翻译”到了两个阶段，除此之外可以认为基本一致。所以，扩展这两个阶段，完全可以生成更强的多人识别网络，这将是一种和Hourglass同一级别的基础框架的结构。

RMPE: Regional Multi-Person Pose Estimation