HRNet-人体姿势估计-论文笔记

1.简介

本文依据《Deep High-Resolution Representation Learning for Human Pose Estimation》翻译总结。HRNet指High-Resolution Net。

人的姿势（肘、手腕等）预测如下图。
在这里插入图片描述

对于单人姿势估计，神经网络有两种主要的方法，一种是回归keypoints的位置，一种是估计关键点热图。其中关键点热的主要部分，一般采用hign-to-low 和low-to-hign的框架。HRNet改进了hign-to-low 和low-to-hign的框架。

下图是4种hign-to-low 和low-to-hign的框架，a图是hourglass，b图是级联金字塔网络，c图是simplebaseline，d图是扩展（dilated）卷积的结合。Hourglass通过对称的低到高分辨率(symmetric low-to-high process)过程恢复高分辨率。SimpleBaseline采用少量的转置卷积层(transposed convolution layers)来生成高分辨率的表示。此外，dilated convolutions还被用于放大高分辨率到低分辨率网络(high-to-low resolution network)的后几层(如VGGNet或ResNet)。

在这里插入图片描述

本文HRNet只考虑单个人的姿势的估计，其是多人姿势估计、video姿势估计和追踪的基础。

HRNet有两个特点，（1）并行的连接hign-to-low分辨率子网络，而不是串行的，所以有能力保存高的分辨率，预测的热图在空间上更加准确；（2）采用multi-scale 融合，而不是简单的聚合low-level和high-level表现，这样也使我们预测的热图潜在上更加准确。

2 HRnet结构

如下图所示，（1）hign-to-low分辨率子网络并行，（2）以及包含multi-scale 融合。在实验中，实际采用了4个并行子网络，8个mutli-scale融合（8个交换单元）。网络架构借鉴了ResNet，设计每个阶段的网络深度与对于每种分辨率的channel数量。
在这里插入图片描述

3 方法

图片：image I，WH3；
K个keypoints；转换成评估K个热图（每个大小W*H）,{H1,H2….HK}中每个元素Hk代表第k个keypoint的定位自信度。

N_sr代表第s阶段的子网络，其中k是分辨率index。该子网络的分辨率等于第一个子网络分辨率的1/(2^r-1)。

3.1 网络表示

串行的Hign-to-low网络表示如下：
在这里插入图片描述

4个并行的子网络可以如下表示：
在这里插入图片描述

3.2 重复的multi-scale融合

我们引入横跨并行子网络的交换单元，以致于每一个子网络重复的收到其他平行子网络的信息。

下面的例子显示了将第3阶段分成3个交换block，每个交换block由3个并行的卷积单元C和一个交换单元构成。
在这里插入图片描述

其中C_sr^b表示卷积单元，其表示在第s阶段，第b个block，第r分辨率。ε表示交换单元。

交换单元图示如下，
在这里插入图片描述

在这里插入图片描述

3.3 热图估计

我们对最后一个交换单元的高分辨率输出进行简单热图回归。损失函数采用均方误差，比较预测的热图和groundtruth 热图。groundtruth 热图是采用1个像素标准差的2D高斯在每个关键点的grouptruth定位中心生成。

4 ## 实验

采用OKS（object keypoint similarity）、the PCKh(head-normalized probability of correct keypoint) score、multi-object tracking accuracy (MOTA)等进行评估。

实验结果可以看到好于很多其他网络。

在这里插入图片描述

5. 其他

lassification networks have been dominant in visual recognition, from image-level classification to region-level classification (object detection) and pixel-level classification (semantic segmentation, human pose estimation, and facial landmark detection).

The HRNet turns out to be a strong repalcement of classification networks (e.g., ResNets, VGGNets) for visual recognition. We believe that the HRNet will become the new standard backbone.

HRNet 可以应用于各种图形处理领域。
在这里插入图片描述