UDP无偏数据处理 | 人体姿态估计通用trick

The Devil is in the Details: Delving into Unbiased Data Processing
for Human Pose Estimation
github地址

1.使用连续度量标准

数据转换是指在不同的坐标系之间对关键点位置进行裁剪、旋转、调整大小、翻转等操作的转换。现有的姿态估计方法都是在离散空间中利用像素来测量图像的大小。而利用离散的像素点作为度量，其实是对连续图像空间的采样。当在推理过程中执行标准翻转策略时，使用像素作为度量将显著降低性能。而降低性能的主要原因为，离散的度量方式遇到图像水平翻转增强时存在固有的偏差。
如下图上半部分所示，因为在关键点预测领域中最终的输出热度图通常是输入图像的4分之1大小（下图中是2分之1）。而正因为这种对原始图像缩小之后在进行预测的方式，结合离散度量法。从而导致遇到翻转操作时，会存在一点偏差。而且降采样和翻转操作又是关键点训练任务中必不可少的操作。
基于此本文提出了一个简单且高效的方案，即提出了一种连续的度量标准。具体来说，采用单位长度作为图像尺寸测量标准，定义为特定空间中相邻像素之间的距离。从而抑制这种由于离散度量的方式而导致的定位偏差。

2.新编解码过程

但上述的所有的分析都是基于在保证关键点位置与热图的编解码过程准确的前提下进行的。然而在标准的方法中该编解码过程是存在固有误差的。

标准编码过程：
由于热度图是由输入图像降采样得到的，因此在制作标签热度图时，会存在需要对标签坐标进行降采样从而存在一个量化过程。下述公式中m,n表示小数值，mq,nq表示四舍五入后的值，R表示的是四舍五入操作。最终对量化后的关键点进行高斯模糊得到关键点标签图。

标准解码过程：
通过网络输出得到预测热度图H，在预测热度图上获取做大响应对应的坐标点m^q,n^q。由于标签坐标m,n是浮点数，因此以m^q,m来举例，理想情况下若预测的完全准确，则两者之间的关系如公式19所示，存在两种情况。

基于上述由于浮点数四舍五入而导致这种预测存在固有误差，且如下表所示，这种固有误差的数学期望是0.25。