Human Pose Estimation浅述

0.摘要

在实际求解时,对人体姿态的估计常常转化为对人体关键点的预测问题,即首先预测出人体各个关键点的位置坐标,然后根据先验知识确定关键点之间的空间位置关系,从而得到预测的人体骨架。
姿态估计问题可以分为两大类:2D姿态估计和3D姿态估计。顾名思义,前者是为每个关键点预测一个二维坐标 (x,y) ;后者是为每个关键点预测一个三维坐标 (x,y,z) ,增加了一维深度信息。

1. 2D姿态估计

对于2D姿态估计,当下研究的多为多人姿态估计,即每张图片可能包含多个人。解决该类问题的思路通常有两种:top-down和bottom-up:

top-down的思路是首先对图片进行目标检测,找出所有的人;然后将人从原图中crop出来,resize后输入到网络中进行姿态估计。换言之,top-down是将多人姿态估计的问题转化为多个单人姿态估计的问题。
bottom-up的思路是首先找出图片中所有关键点,然后对关键点进行分组,从而得到一个个人。

1.1Top-down

网络的输入就是包含一个人的bounding box,
网络的输出的是人的 k个关键点坐标,因为有横纵坐标轴,所以一共要回归2k个数字。有两种预测思路:
1.直接对坐标进行回归:网络的输出是经过fc层输出的2k个数字
2.heatmap:对featuremap每个点进行热力值预测,可以获得heatmap,heatmap上最大值即为关键点的坐标

参考文献:
https://zhuanlan.zhihu.com/p/104917833

猜你喜欢

转载自blog.csdn.net/qq_41950533/article/details/124266129