Human Pose Estimation人体姿态估计综述调研

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Anymake_ren/article/details/81978260

给定一幅图像或一段视频,人体姿态估计就是去恢复其中人体关节点位置的过程。

数据集

评价标准

主要评价标准包括以下两种,PCK的评价标准多出现在单人的姿态估计上,多人的姿态估计评价标准基本上为mAP,比赛和学术论文中mAP成为衡量结果的必须指标。

  • PCK
    Percentage of Correct Keypoints (PCK),reports the percentage of keypoint detection falling within a normalized distance of the ground truth.
    For FLIC, distance is normalized by torso size, and for MPII, by a fraction of the head size (referred to as PCKh).

  • mAP
    人体骨骼关键点的评价指标类比通用的物体检测评价方式,将最终的mAP(mean Average Precision)值作为评价依据。物体检测任务中使用IoU(Intersection over Union)来评价预测与真实标注之间的差异,在人体骨骼关键点检测任务中,我们使用OKS(Object Keypoint Similarity)代替IoU,对选手预测的人体骨骼关键点位置与真实标注之间的相似性进行打分。

OKS计算

面临的挑战和难点

  1. 人体的肢体运动比较灵活

  2. 视角的变化

  3. 衣着的变化

基于CNN得单人姿态估计方法

2015年之前都是直接回归出关节的坐标(Deep pose),效果并不理想。其主要原因有两方面:一方面是人体运动比较灵活,另一方面,回归模型的可扩展性较差,比较难于扩展到不定量的人体姿态识别问题中。因此,目前大家普遍使用的过渡处理方法是将其看作检测问题,从而获得一张热点图谱。

[1] Convolutional Pose Machines CVPR 2016

  • 源码:https://github.com/shihenw/convolutional-pose-machines-release“>github

  • COCO2016 Keypoints Challenge的冠军。

  • 2016 年提出的 CPM 方法具有很强的鲁棒性,CPM 的贡献在于使用顺序化的卷积架构来表达空间信息和纹理信息。算法在每一个尺度下,计算各个部件的响应图,对于每个部件,累加所有尺度的响应图,得到总响应图,在每个部件的总响应图上,找出相应最大的点,为该部件位置。作者用各部件响应图来表达各部件之间的空间约束,模型能有效解决遮挡问题。

[2] Stacked Hourglass Networks for Human Pose Estimation

  • 源码:https://github.com/umich-vl/pose-hg-train“>github

  • 16,17年之后出现的大多单人姿态估计算法都是基于这个模型结构进行改进。MPII2016冠军。

  • 一种沙漏型的网络结构,首先进行卷积处理,并进行下采样操作,获得一些分辨率较低的特征,从而使计算复杂度降低。为了使图像特征的分辨率上升,紧接着进行上采样。上采样操作使得图像的分辨率增高,同时更有能力预测物体的准确位置。通过这样一种处理,相较于其他网络,该网络结构能够使同一个神经元感知更多的上下文信息。

  • 作者提到在12 GB NVIDIA TitanX GPU 训练用时3天,每一幅图片前向运算用时75ms,每一副图片测试用时130ms,比CPM方法有显著优势。

[3] Learning Feature Pyramids for Human Pose Estimation ICCV2017

猜你喜欢

转载自blog.csdn.net/Anymake_ren/article/details/81978260