HRNet-人体姿势估计-论文笔记

1.简介

本文依据《Deep High-Resolution Representation Learning for Human Pose Estimation》翻译总结。HRNet指High-Resolution Net。

人的姿势(肘、手腕等)预测如下图。
在这里插入图片描述

对于单人姿势估计,神经网络有两种主要的方法,一种是回归keypoints的位置,一种是估计关键点热图。其中关键点热的主要部分,一般采用hign-to-low 和low-to-hign的框架。HRNet改进了hign-to-low 和low-to-hign的框架。

下图是4种hign-to-low 和low-to-hign的框架,a图是hourglass,b图是级联金字塔网络,c图是simplebaseline,d图是扩展(dilated)卷积的结合。Hourglass通过对称的低到高分辨率(symmetric low-to-high process)过程恢复高分辨率。SimpleBaseline采用少量的转置卷积层(transposed convolution layers)来生成高分辨率的表示。此外,dilated convolutions还被用于放大高分辨率到低分辨率网络(high-to-low resolution network)的后几层(如VGGNet或ResNet)。

在这里插入图片描述

本文HRNet只考虑单个人的姿势的估计,其是多人姿势估计、video姿势估计和追踪的基础。

HRNet有两个特点,(1)并行的连接hign-to-low分辨率子网络,而不是串行的,所以有能力保存高的分辨率,预测的热图在空间上更加准确;(2)采用multi-scale 融合,而不是简单的聚合low-level和high-level表现,这样也使我们预测的热图潜在上更加准确。

2 HRnet结构

如下图所示,(1)hign-to-low分辨率子网络并行,(2)以及包含multi-scale 融合。在实验中,实际采用了4个并行子网络,8个mutli-scale融合(8个交换单元)。网络架构借鉴了ResNet,设计每个阶段的网络深度与对于每种分辨率的channel数量。
在这里插入图片描述

3 方法

图片:image I,WH3;
K个keypoints;转换成评估K个热图(每个大小W*H),{H1,H2….HK}中每个元素Hk代表第k个keypoint的定位自信度。

N_sr代表第s阶段的子网络,其中k是分辨率index。该子网络的分辨率等于第一个子网络分辨率的1/(2^r-1)。

3.1 网络表示

串行的Hign-to-low网络表示如下:
在这里插入图片描述

4个并行的子网络可以如下表示:
在这里插入图片描述

3.2 重复的multi-scale融合

我们引入横跨并行子网络的交换单元,以致于每一个子网络重复的收到其他平行子网络的信息。

下面的例子显示了将第3阶段分成3个交换block,每个交换block由3个并行的卷积单元C和一个交换单元构成。
在这里插入图片描述

其中C_sr^b表示卷积单元,其表示在第s阶段,第b个block,第r分辨率。ε表示交换单元。

交换单元图示如下,
在这里插入图片描述

在这里插入图片描述

3.3 热图估计

我们对最后一个交换单元的高分辨率输出进行简单热图回归。损失函数采用均方误差,比较预测的热图和groundtruth 热图。groundtruth 热图是采用1个像素标准差的2D高斯在每个关键点的grouptruth定位中心生成。

4 ## 实验

采用OKS(object keypoint similarity)、the PCKh(head-normalized probability of correct keypoint) score、multi-object tracking accuracy (MOTA)等进行评估。

实验结果可以看到好于很多其他网络。

在这里插入图片描述

5. 其他

lassification networks have been dominant in visual recognition, from image-level classification to region-level classification (object detection) and pixel-level classification (semantic segmentation, human pose estimation, and facial landmark detection).

The HRNet turns out to be a strong repalcement of classification networks (e.g., ResNets, VGGNets) for visual recognition. We believe that the HRNet will become the new standard backbone.

HRNet 可以应用于各种图形处理领域。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zephyr_wang/article/details/107646269