2D关键点检测之MSPN：Rethinking on Multi-Stage Networks for Human Pose Estimation

论文链接：Rethinking on Multi-Stage Networks for Human Pose Estimation
时间：2019.01 ArXiv 2019
作者团队：Wenbo Li, Zhicheng Wang, Binyi Yin, Qixiang Peng, Yuming Du, Tianzi Xiao, Gang Yu, Hongtao Lu, Yichen Wei, Jian Sun
分类：计算机视觉–人体关键点检测–2D topdown_heatmap

现有的人体姿态估计网络综述中，通常将其分为bottom-up和top-down两大类。bottom-up类网络直接提取全图人体关键点并利用启发式后处理方法将全图关键点分配到对应人体实例上。top-down类网络先通过人体目标检测算法提取全图中的人体实例框，并基于该框进行人体关键点提取。
而MSPN基于网络结构的特点将人体姿态估计网络划分为单阶段人体姿态估计网络和多阶段人体姿态估计网络。单阶段人体姿态估计网络没有模块的重叠，通过backbone结构后接上采样操作构成完整的人体姿态估计网络。多阶段人体姿态估计网络中每个stage都可以作为独立的模块，有独自的降采样和上采样过程。可以选择任意数量的stage构成最终的多阶段人体姿态估计网络。
于旷世团队提出的CPN，Cascaded Pyramid Network网络可以分为两部分：GlobalNet和RefineNet。GlobalNet的作用主要是对关键点进行初步的检测，使用ResNet作为backbone进行特征提取，使用FPN结构加强特征提取。RefineNet将FPN结构中不同分辨率下的特征进行整合，被遮挡的、难以定位的关键点根据融合后的上下文语境信息能够更好的被定位到。
MSPN沿用多阶段人体姿态估计网络的思路，对CPN做出一系列改进，使得MSPN的效果超过当前的单阶段人体姿态估计网络。

2.MSPN姿态识别

提出问题：
（1）多阶段网络中单个阶段结构设计不合理
（2）重复升降采样导致的特征损失
（3）多阶段只有一个损失难以优化
单个阶段结构优化
现有的多阶段人体姿态估计网中，每个stage在进行特征降采样和升采样时通道保持不变，这会导致特征丢失。因此文中采用CPN的网络结构来替换Hourglass中每个阶段，使单个阶段能力变强，避免因为降采样而丢失信息。
随着叠加stage与hourglass进行比较的评估结果：
在这里插入图片描述

网络结构部分

相邻stage特征聚合
对于每个阶段的模块，MSPN采用CPN中的GlobalNet（backbone为ResNet）。由于经过多次下采样、上采样导致特征丢失，为避免信息损失，MSPN增加跨阶段的特征融合（黄色箭头）。MSPN将前一个阶段下采样和上采样过程中对应分辨率的两个feature maps，与当前阶段下采样的feature map进行融合，当前阶段得到的feature map包含更多先验知识，减少stage间的信息丢失，有助于缓解梯度消失问题。

具体的特征聚合方法如图所示，对于当前阶段的降采样过程，其输入包含三个部分。分别为：上个阶段中相同size的降采样特征经过11卷积编码后的特征，上个阶段中相同size的上采样特征经过11卷积编码后的特征，以及当前stage的降采样特征。作者认为Hourglass在传播过程中会丢失信息，而聚合策略可以更有效地缓解这一问题。

由粗到细监督
在这里插入图片描述

MSPN还采用不同阶段的监督，姿态估计的ground truth一般是以关键点为中心的二维高斯分布。对于多阶段人体姿态估计网络，随着阶段的增加，对keypoint的估计是从粗到细的过程。因此进行中间监督的时候，可以将ground truth也设置成从粗到细（从大到小）的heatmap，前面阶段的高斯核较大，后面阶段的高斯核较小，随着stage的增加要求关键点位置越来越精确。
特征聚合能力与由粗到细监督的消融实验：
在这里插入图片描述

总结
Cross Stage Feature Aggregation：MSPN增加跨阶段的特征融合，把不同stage同一层的feature 融合起来，避免信息损失，有助于缓解梯度消失。
Coarse-to-fine Supervision：ground truth随着阶段的增加越来越精细，代替CPN的refineNet。
结果评估
COCO数据集模型评估结果

MPII数据集

3.MSPN网络架构图

在这里插入图片描述

4.引用

引用1
引用2
引用3