1.什么是姿态估计

在这里插入图片描述
如下是coco数据集的各个点，不同数据集有不同

举例：

在这里插入图片描述

2.姿态估计的两种方法

2.1 Top-down方法

在这里插入图片描述
第一步得到框以后，对单个框做一个回归任务，例如：将单人图裁剪出来，输入17个关键点的网络模型，得到头，肩等位置，注意这里的位置如果要想准确，得是相对位置。
什么是相对位置：相对位置就是头的位置，针对裁处的图的宽高的距离，假设图左上角为原点，那么偷得位置就是距离原点w=1，距离原点h=2.

第二步拼接点，拼接点的规则是我们提前配置好的。

这种方法的优点：
1.点的拼接不会错（准）
这种方法的问题：
在这里插入图片描述
这种方法适用于：
1.不要求速度
2.要求准
多人，实时的问题举例：

openpose的改进就是剥离出目标检测，直接对图像进行关键点检测，然后拼接，怎么拼接呢？

2.2 openpose方法

关键点获取：
在这里插入图片描述
输出18个特征图（每个特征图对应一个关键点），上图输出的是右肩膀的热度图。那么标签定义的时候，也就需要定义为高斯类型，哪些点离得近概率就高，离得远，概率就低。

拼接：（PAF part affinity fields 部分亲和场）
目的：找到当前最合适的拼接方式（拼接方向）
在这里插入图片描述
引入向量概念
18个点有19种连接方式，2个点（x1，y1）（x2，y2）会有一个向量
方向有两种，x的方向，y的方向，所以这种预测的特征图的数量为：19*2=38个，38个特征图代表19种方向。

方向有了怎么连接？
在这里插入图片描述
分数肯定需要网络学习，那么学习就涉及到标签制作：

标签制作中，需要向量信息，向量有大小，有方向，现在只需要方向，所以单位向量最适合

方向实例1：

标签中的方向明白的话，接下来看：预测中的方向
在这里插入图片描述
引入积分思想：
积分就是求近似面积，例如估计一个无数个间隔无限接近的长方形图形对于x轴的面积

上门投影做积分的思想就是如下的公式体现：

回到方向有了，怎么连接？=》分数（权值）权值就是这么算出来的
在这里插入图片描述

得分值知道以后怎么匹配呢？
一个点，例如脖子的点，可以匹配左肩膀，右肩膀，左腿，右腿，一个点匹配很多个点，这样的匹配就很难了（图下情况b），上面得到的积分，只能说哪个方向好，哪个方向坏。
常见的匹配就是二分匹配，直接套用匈牙利算法。
在姿势匹配中，就是规定的脖子只连右肩膀，右肩膀只连右胳膊肘，右胳膊肘只连右手（图下情况c），每一个特征点的匹配都是二分的（图下情况d），二分的做的好。
在这里插入图片描述

如果还看不懂，先往下看，到下面第三张图就明白了！！！

3.框架

在这里插入图片描述
输入图像（如上图情况a），走两个分支（b，c）
估计关键点实际位置（如上图情况b），得到18个特征图。
估计关键点之间的向量（如上图情况c），得到38个特征图。

根据上门的二分匹配，左边绿点为左肩膀，绿线连接左边蓝点（左胳膊肘），红线连接右边蓝点（左胳膊肘），做二分匹配，匹配到对的。
（如上图情况d），得到19张特征图。
在这里插入图片描述
最后基于19张特征图得到骨架结果（如上图情况e）