AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time 阅读笔记

AlphaPose:实时全身区域多人姿势估计和跟踪

IEEE TPAMI,2022
论文链接
代码链接

  • 本阅读笔记仅关注姿态估计,姿态跟踪实际上就是在多人姿态估计的基础上加上了人体身份识别。

摘要: 为捕捉人体的细微动作以进行复杂的行为分析,whole-body 全身姿态估计(包括面部、身体、手和脚)比传统的 body-only 姿态估计更为重要。本文提出一个实时精确的联合全身姿态估计和跟踪系统 —— AlphaPose。并提出几种新技术:用于快速精细定位的对称积分关键点回归(Symmetric Integral Keypoint Regression: SIKR)、用于消除冗余人体检测的参数姿态非极大值抑制(Parametric Pose Non-Maximum-Suppression: P-NMS)以及用于联合姿态估计和跟踪的 Pose Aware Identity Embedding。训练过程中使用 Part-Guided Proposal Generator (PGPG) 和多域知识蒸馏(multi-domain knowledge distillation)来进一步提高准确性。我们的方法能准确定位全身关键点,同时在给定不准确的边界框和冗余检测的情况下跟踪人体。我们的方法在 COCO-wholebody、COCO、 PoseTrack、和我们提出的 Halpe-FullBody 数据集上在速度与精度上实现了sota。


1 INTRODUCTION

我们的方法遵循 top-down 框架,先检测人体 bbox,然后在bbox内对每个人体进行姿态估计。top-down 方法存在两个缺陷:i) 若人体检测失败,则姿态估计器无法恢复人体姿态,ii)当前研究采用强大的人体检测器来提高准确性,拖慢了 two step processing 的推理。我们提出一个新方法来应对这些缺陷:

  • 为了缓解检测缺失问题,我们降低了检测置信度和NMS阈值,以便为后续姿态估计提供更多候选。
  • 然后,通过 Parametric Pose NMS 消除冗余检测框中的冗余姿态,该NMS引入了一种新的姿态距离度量来比较姿态相似性 ,并应用 数据驱动 方法来优化姿态距离参数。(与原AlphaPose一样)

实验表明,采用此策略,应用 YOLOV3-SPP 检测器的自顶向下框架与 sota 检测器的性能相当,且效率更高。此外,为加快推理速度,我们在AlphaPose中设计了一个使框架能够实时运行的 multi-stage concurrent pipeline。
野外的全身姿态估计更具挑战性,因为它面临几个额外的问题。目前最常用的关键点表示方法是热图法,但由于计算资源的限制,热图大小通常为输入图像的 1/4 。但对于同时定位身体、面部和手部的关键点而言,这种表示不合适,因为它存在量化误差,不能处理跨不同身体部位的大尺度变化。如图1所示,由于热图表示是离散的,热图上的两个相邻网格可能会错过正确的位置。这对身体姿态估计来说不是问题,因为身体姿态的正确区域通常很大,但很容易错过手、脸上精细关键点的正确位置。

在这里插入图片描述

图1。热图导致的量化误差(绿线和蓝线)。通过我们的对称积分关键点回归(粉色线)可以解决定位误差。

先前的方法要么采用额外子网进行手脸估计,要么采用 ROI Align 放大特征图来解决上述问题,但这两种方法计算成本高昂,尤其对于多人场景。本文提出了一种新的 对称积分关键点回归方法,可以在不同尺度上精确定位关键点。这是第一种在消除量化误差的同时具有与热图表示精度相同的回归方法
全身姿态估计的另一个问题是缺乏训练数据。与具有丰富数据集的身体姿态估计不同,全身姿态估计只有一个数据集 :COCO-wholebody 。我们为此任务标注了一个新数据集:Halpe,其中包括 OCO-wholebody 中未提供的额外重要关节。
为进一步提高野外全身姿态估计自顶向下框架的通用性,我们引入了两个关键组件:1)采用多域知识蒸馏 合并来自不同身体部位数据集的训练数据;2)为缓解不同数据集间的差距和不完美检测问题,我们提出了一种新的部位引导人体 proposal 生成器(PGPG)来增加训练样本,通过学习不同姿态人体检测器的输出分布,模拟人体边界框的生成,产生大量训练数据样本。
最后引入了一个 pose-aware identity embedding 同时进行姿态跟踪,即在姿态估计器上附加一个人体识别分支,联合执行姿态估计和人体识别。借助于 pose-guided region attention ,姿势估计器能够准确地识别人体。这种设计能够以统一的方式实现实时姿态估计和跟踪。
本文从以下方面扩展了我们在ICCV 2017上发表的 RMPE:

  • 我们将我们的框架扩展到全身姿态估计场景,并提出了一种用于精细定位的新的对称积分关键点定位(SIKR)网络
  • 我们扩展了 PGPG,以结合不同身体部位数据集的多域知识蒸馏。
  • 我们标注了一个新的全身姿态估计基准 Halpe(每个人136点),并与以前的方法进行了比较。
  • 我们提出 pose-aware identity embedding,同时在自上而下框架中实现姿势跟踪。
  • 这项工作记录了AlphaPose的发布,它实现了准确性和实时性。

2 RELATED WORK

2.1 Multi Person Pose Estimation

Bottom-up Approaches:bottom-up 的身体部位检测器不稳定,因为只考虑了小的局部区域,且当图像中有小人体时存在尺度变化问题。

Top-down Approaches: top-down 的推理速度慢,library-level framework 的缺乏阻碍了其在行业中的应用。本文中提出的 AlphaPose 开发了一个 multi-stage pipeline 能同步处理耗时的步骤并实现快速推理。

One-stage Approaches: 有些方法既不需要关节后分组,也不需要预先检测人体边界框。他们在定位人体的同时检测关键点,提高了效率。代表工作包括 CenterNet、SPM、DirectPose 和 Point set Anchor。但这些方法精度不高,部分原因是 body center map 和 dense joint displacement maps 是 high-semantic nonlinear 的表示,使网络难以学习。

2.2 Whole-Body Keypoint Localization

针对多人身体、面部、手和脚关键点的统一检测是一个相对较新的研究课题,目前提出的方法很少。OpenPose 开发了一种级联方法,先使用 PAF 检测身体关键点,再采用两个单独的网络来分别估计面部关键点和手关键点,这种设计的时间效率低下,且消耗额外的计算资源。Hidalgo等人提出了一个单独的网络来估计全身关键点,但由于其 one-step 机制,输出分辨率受到限制,使其在面部和手等精细级关键点上的性能较低。Jin等人提出了 ZoomNet,使用ROIAlign裁剪特征图上的手和面部区域,并在 resized 的特征图上预测关键点。所有这些方法都采用热图表示来进行关键点定位,但热图的量化误差会降低面部和手部关键点的精度。大尺寸的输入需求也消耗了更多的计算资源。本文认为 soft-argmax 表示更适合全身姿态估计,并提出精度更高的 soft-argmax 改进版本。Jin等人将COCO数据集扩展到全身场景,提出了OCO-wholebody,但一些重要关节(如头部和颈部)未包括在该数据集中,且面部标注与300LW中的面部标注不兼容。本文提出了一种新的野外多人全身姿态估计基准,我们从 HICO-DET 中标注了 40K 张图像作为 train set,并将COCO keypoints validation set(6K instances)扩展为我们的 test set。

2.3 Integral Keypoints Localization

热图仅描述了每个空间网格出现关节的概率,读取位置是离散的数据,会导致不可避免的量化误差。如第2.2节所示,我们认为基于 soft-argmax 的积分回归更适合全身关键点定位。之前几项研究 soft-argmax 的工作从热图中读取连续的关节位置,Luvizon等人和Sun等人成功将 soft-argmax 运算应用于单人2D/3D姿态估计。然而,这些工作中存在两个缺点:不对称梯度问题size-dependent keypoint scoring 问题,降低了其在姿态估计中的精度。因此,我们提供了一种新的具有更高精度的关键点回归方法来应对这两个问题,该方法在全身姿态估计和纯身体姿态估计中都表现出良好的性能。

3 WHOLE-BODY MULTI PERSON POSE ESTIMATION

图2所示为方法的整体pipeline.
在这里插入图片描述

我们的全身姿势估计和跟踪框架。给定输入图像,先使用现成的目标检测器(如YoloV3或EfficientDet)获得(i)人体检测,crop 并 resize 每个检测人体的大小,然后通过姿态估计和跟踪网络将其转发,以获得全身人体姿态和Re-ID特征。这两个网络的 backbone 可以分离以适应不同需求,也可以共享相同的权重以进行快速推断(因此在图中未对齐)。采用对称积分回归 (a) 进行精细级关键点定位。采用PoseNMS (b) 来消除冗余姿态。pose-guided alignment(PGA)模块(c)应用于预测的 human re-id 特征,以获得 pose-aligned human re-id features。multi-stage identity matching(MSIM)(d) 利用人体姿态、re-id 特征和检测框来生成最终的跟踪失败。训练过程中,采用 proposal generator and knowledge distillation(e)来提高网络的泛化性。

3.1 Symmetric Integral Keypoints Regression

soft-argmax 存在两个问题,下面阐述这两个问题,并提出解决方法。

3.1.1 Asymmetric gradient problem 不对称梯度问题

soft-argmax 也称为 integral regression (积分回归),是可微的,它将基于热图的方法转变为基于回归的方法,允许端到端训练。积分回归运算定义为:

在这里插入图片描述
x 表示每个像素的坐标, p x p_x px 表示热图正则化后每个像素的似然,训练期间,在预测关节位置 μ ^ \hat{μ} μ^ 与gt 关节 μ 位置间利用 l1 norm loss: ∣ ∣ μ − μ ^ ∣ ∣ 1 ||μ - \hat{μ}||_1 ∣∣μμ^1。每个像素的梯度可以公式化为:
在这里插入图片描述
注意,梯度的振幅是不对称的。梯度的绝对值由像素的绝对位置(即x)而不是 GT 值相对位置确定。 这表明,给定相同的距离误差,当关键点位于不同位置时,梯度变得不同。这种不对称性打破了CNN网络的平移不变性,从而导致性能下降。

Amplitude Symmetric Gradient. 为提高学习效率,我们提出在反向传播中使用 amplitude symmetric gradient(ASG) 函数,该函数近似于真实梯度:
在这里插入图片描述
A g r a d A_{grad} Agrad 表示梯度的振幅,他是一个常数,我们将其设为热图尺寸的 1/8。使用我们的对称梯度,梯度分布被集中于预测的关节位置 μ ^ \hat{μ} μ^。在学习过程中,这种对称梯度分布可以更好地利用热图的优势,并以更直接的方式近似 GT 位置。例如预测位置 μ ^ \hat{μ} μ^ 比 gt 位置 μ 更高,一方面,网络倾向于抑制 μ ^ \hat{μ} μ^ 右侧的热图值 ,因为它们具有正梯度;另一方面, μ ^ \hat{μ} μ^ 左侧的热图值将因其负梯度而被激活。

Stable gradients for ASG
下面进行 Lipschitz 分析以导出 A g r a d A_{grad} Agrad 的值,并表明ASG可以为训练提供更稳定的梯度。 f 表示要最小化的目标函数。若 f 满足eq(4),则称 f 是 L-smooth:
在这里插入图片描述
其中 z 表示由网络预测的 logits , μ ^ = h ( z ) \hat{μ} = h(z) μ^=h(z) 表示归一化和 soft-argmax 函数的组合。这里,我们假设网络的梯度平滑,并且只分析组合函数,即:
在这里插入图片描述
注意,x可以是热图上的任意位置。将热图大小表示为W,则整个数据集上有: ∣ ∣ x − μ ^ ∣ ∣ < = W ||x-\hat{μ}|| <= W ∣∣xμ^∣∣<=W,因此,我们导出积分回归的Lipschitz常数为:
在这里插入图片描述
其中Ls是归一化函数的 Lipschitz 常数,表明传统的积分回归将因子W乘以归一化的Lipschitz常数。
类似地,我们可以导出所提出的振幅对称函数的Lipschitz常数。首先,对数的梯度为:
在这里插入图片描述
结果表明,当 Agrad=W/8 时,所提出方法的 Lipschitz 常数比原始积分回归小4倍,表明梯度空间更平滑,易于模型优化

3.1.2 Size-dependent Keypoint Scoring Problem

执行 soft-argmax 前,预测热图的元素和应归一化为1,即: ∑ p x = 1 \sum{p_x}=1 px=1。先前的 soft-max 在单人姿态估计中表现良好,但运用于多人姿态估计任务时存在很大性能差距,这是因为多人情况,不仅需要关节位置还需要用于 pose NMS 和计算 mAP 的关节置信度,先前采热图最大值为置信度的方法是 Size-dependent 的且不准确。
若我们采用 one-step 归一化(如soft max),热图的最大值与高度依赖身体关节投影大小的分布比例成反比 。因此,大关节(例如左髋关节)将产生比小关节(例如鼻子)更小的置信值,这会损害预测置信值的可靠性。

Two-step Heatmap Normalization.解耦置信预测和积分回归,我们提出了一种两步热图归一化方法。在第一步中,我们执行 element-wise 归一化以生成置信热图C:
在这里插入图片描述
因此,关节置信度可由热图的最大值表示:
在这里插入图片描述
由于我们在 normalization 的第一步中使用了 element-wise 的运算: sigmoid,且不强制C的和为1,因此C的最大值不会受到关节大小的影响。这样,预测的关节置信度仅与预测的位置相关。在第二步中,我们执行 global normalization 以生成概率热图P:
在这里插入图片描述
概率热图 P 的元素和为1,这确保预测的关节位置 μ ^ \hat{μ} μ^ 在热图边界内,并稳定训练过程。
总之,通过第一步获得关节置信度,并在第二步生成的热图上获得关节位置。

3.2 Multi-Domain Knowledge Distillation

除了对称积分回归外,网络的性能还可以进一步受益于额外的训练数据。除标注的一个新数据外,我们还采取多域知识蒸馏来训练我们的网络,采用了三个额外的数据集:300Wface 、 FreiHand 和 InterHand,结合这些数据集,我们的网络能够准确预测野外图像中的面部和手部关键点。
训练期间,我们按照固定比率采样不同的数据集来构建每个训练 batch,具体而言:1/3的 batch 采样于我们标注的数据集,1/3 采样于 COCO-fullbody ,其余的从300Wface和FreiHand采样。对于每个样本,我们应用特定于数据集的扩充,这将在下一节中介绍。
尽管这些特定领域的数据集能提供准确的中间监督,但它们的数据分布与 in-the-wild 图像中的数据分布有很大不同。为了解决此问题,我们将 pose-guided proposal generator 扩展到全身场景,并以统一的方式进行数据扩充。

3.3 Part-Guided Proposal Generator

对于两阶段姿态估计,由人体检测器生成的人体 proposal 通常生成与 gt 人体 box 不同的数据分布。同时,野外全身图像与数据集的局部图像生成的面部和手部的空间分布也不同。如果没有在训练期间进行适当的数据增强,姿态估计器可能无法在检测人体的测试阶段正常工作。
为了生成与人体检测器的输出具有相似分布的训练样本,我们提出 part-guided proposal generator 。对于具有紧密包围的bbox的不同身体部位,proposal 生成器生成一个与人体检测器输出分布一致的新box。
由于我们已经为每个部位设置了 gt 边界框,因此我们将此问题简化为建模检测边界框和 gt 边界框间的相对偏移在不同部位间的分布。具体而言,存在一个分布:
在这里插入图片描述
δ x m i n / δ x m a x \delta x_{min}/\delta x_{max} δxmin/δxmax是由人体检测器生成的边界框的 left-est/right-est (最左/最右)坐标与 gt 边界框坐标间的归一化偏移:
在这里插入图片描述
如果能建模这种分布,就能够生成许多训练样本,这些样本类似于人体检测器生成的人体 proposal。
为了实现这一点,我们采用现成的目标检测器,并生成 HalpeFullBody 数据集的人体检测。对于数据集中的每个实例,我们分开标注面部、身体和手,对每个部分都计算其紧密包围的边界框和整个人体检测边界框间的偏移。由于水平和垂直方向的 box 方差通常是独立的,我们将原始分布的建模简化为建模:

在这里插入图片描述
在Halpe FullBody中处理所有实例后,偏移量形成频率分布,我们将数据拟合为高斯混合分布。不同的身体部位的高斯混合参数不同。图3中可视化了部位对应的分布。
在这里插入图片描述

图3。几个不同身体部位的边界框偏移分布。虚线框表示近似均匀分布的范围。

姿态估计器的训练阶段,对于属于p部位的训练样本,我们可以通过根据 P x ( δ x m i n , δ x m a x ∣ p ) Px(δx_{min}, δx_{max}|p) Px(δxmin,δxmaxp) P y ( δ y m i n , δ y m a x ∣ p ) Py(δy_{min}, δy_{max}|p) Py(δymin,δymaxp)的密集采样来生成其相对 gt 边界框的额外偏移,以生成增强的训练 proposal。在实践中,我们发现以近似均匀分布(图3中的红色虚线框)进行采样也可以产生类似的性能。

3.4 Parametric Pose NMS (与RMPE采用的一样)

top-down 姿态估计的一个主要缺陷是它太依赖人体检测器。本文将检测置信度设为低值(在我们的实验中为0.1),以确保高检测召回率。这种情况下,人体检测器不可避免地生成冗余检测,从而导致冗余姿态估计。因此,需要姿态 NMS 来消除冗余。本文提出了一种参数姿态NMS方法。具有 m 个关节的姿态 P i P_i Pi 被表示为: { < k i 1 , c i 1 > , . . . , < k i m , c i m > } , k i j 和 c i j \{<k^1_i , c^1_i>, . . . , <k^m_i , c^m_i>\},k^j_i 和 c^j_i { <ki1,ci1>,...,<kim,cim>}kijcij 分别表示 j-th 关节的位置和置信度。
NMS scheme. 我们重新审视姿态NMS如下:首先,选择置信度最高的姿态作为参考,并通过应用消除准则消除与之接近的一些姿态。对剩余的姿态集重复此过程,直到消除冗余姿态并仅留唯一姿态。
Elimination Criterion 消除准则. 需要定义姿态相似性来消除彼此过于接近和过于相似的姿态。我们定义了姿态距离度量 d ( P i , P j ∣ Λ ) d(P_i, P_j|Λ) d(Pi,Pj∣Λ) 来测量姿态相似性,并定义阈值 η 作为消除标准,Λ 是函数 d(·) 的参数集,消除标准可以写成如下:
在这里插入图片描述
若 d(·) 比 η 更小, f(·) 的输出为 1,表示 P i 对于参照姿态 P j P_i 对于参照姿态 P_j Pi对于参照姿态Pj 冗余,应被消除。

Pose Distance 姿态距离. 现在,我们给出距离函数 d p o s e ( P i , P j ) d_{pose}(P_i,P_j) dpose(PiPj),假设 P i 的框是 B i P_i的框是B_i Pi的框是Bi,定义一个 soft matching 函数:
在这里插入图片描述
tanh操作过滤掉低置信度姿态。当两个对应的关节都具有较高置信度时,输出将接近1。该距离 softly 计算姿态间匹配的关节数。
部位间的空间距离可以写成:
在这里插入图片描述
通过组合等式(8)和(9),最终距离函数可以写成:
在这里插入图片描述
λ是平衡两个距离的权重,Λ={σ1,σ2,λ}。注意,先前的姿态 NMS 手动设置姿态距离参数和阈值,而我们的参数姿态NMS以数据驱动方式确定距离参数和阈值。

Optimization. 给定检测到的冗余姿态,消除准则 f ( P i , P j ∣ Λ , η ) f(P_i, P_j|Λ, η) f(Pi,Pj∣Λ,η) 中的四个参数被优化,以实现验证集的最大mAP。由于4D空间难以穷举搜索,因此通过迭代方式固定两个参数,一次优化另外两个参数。一旦收敛,参数将固定,并在测试阶段使用。

4 MULTI PERSON POSE TRACKING

5 ALPHAPOSE

5.1 Pipeline

two-step 框架的缺陷是推理速度的限制。为促进大规模数据的快速处理,我们设计了一个具有multi-processing implementation 的 five-stage pipeline,以加快推理速度。图4所示为 AlphaPose pipeline 机制。我们将整个推理过程分为五个模块,遵循每个模块消耗相似处理时间的原则,在推理过程中,每个模块都由独立的进程或线程托管。每个进程都使用 First-In-First-Out queue 与后续进程通信,即它存储当前模块的计算结果,后续模块直接从队列中获取结果。通过这种设计,这些模块能够并行运行,从而显著提高速度并实现实时应用。

在这里插入图片描述

图4. AlphaPose的系统架构。 系统被分为 5 个module: (a) data loading module 加载图像、视频或摄像机流作为输入, (b) detection module 提供人体 proposals, (c) data transformation module 处理检测结果并为后续模块裁剪出单个人体,(d) pose estimation module 为每个人体生成关键点或人体识别,(e) post processing module 处理并保存姿态结果。 我们的框架很灵活,每个模块都包含几个可以轻松替换和更新的组件。虚线框表示每个模块中的可选组件。

5.2 Network

我们的框架能采取不同的人体检测器和姿态估计器。
当前的实现采用了现成检测器:包括在COCO数据集上进行训练的 YOLOV3 和 EfficientDet。我们没有重训练这些模型。
==对于姿态估计器,我们设计了一个新backbone: FastPose ==,它能够实现高精度与高效率。网络结构如图5所示,使用 ResNet 作为网络backbone,从输入的裁剪图像中提取特征;采用三个 Dense Upsampling Convolution(DUC) 模块对提取的特征进行上采样,然后使用1×1卷积层生成热图。DUC模块先将 2D 卷积应用于 h×w×c 维的特征图,然后通过 PixelShuffle 操作将其 reshape为 2h×2w×c’。
在这里插入图片描述

图5。FastPose的网络架构。先采用ResNet作为网络主干,然后采用DUC模块进行上采样,最后利用1×1卷积生成热图。

为进一步提高性能,我们还将可变形卷积(deformable convolution)算子结合到 ResNet backbone 中,以改进特征提取。这种网络被命名为 FastPose-DCN。

6 DATASETS AND EVALUATIONS

6.1 Datasets

Halpe-FullBody. 我们标注了 Halpe-FullBody (数据集链接) 全身关键点数据集,对每个人标注136个关键点,其中20个是身体,6个是脚,42个是手,68个是脸。关键点格式如图6所示。
在这里插入图片描述

图6。Halpe-FullBody 数据集标注的关键点格式。(a)身体和脚,(b)面部,(c)手。

注意,由于面部关键点有两种主流定义(图7),我们仅标注面部可见的下颚(图7中的绿色点),以便与这两种定义兼容。对于图像,我们的训练集使用 HICO-DET 数据集的训练图像,测试集使用COCO val set。总共,我们的数据集包含用于训练的50K个实例和用于测试的5K张图像。表1将我们的数据集与先前流行的人体姿态估计数据集进行了比较。

在这里插入图片描述

图7。下颚上关键点的两种不同的定义。绿点表示相同的定义,红点表示不同的定义。在(a)和(b)中,左侧定义通常用于2D标注数据集,而右侧定义用于3D面部对齐任务。


在这里插入图片描述

表1. RGB图像中用于2D关键点估计的一些流行公共数据集概述。Kpt表示关键点,#Kpt表示标注的关键点个数。“Wild”表示数据集是否在野外采集。“HOI”表示 human-object-interaction 的身体部位标签。

COCO-WholeBody. 作为一项并行工作,Jin等人基于COCO数据集标注了133个全身关键点。它们与我们共享类似的关键点定义,但它们的标注中缺少头部、颈部和臀部点。整个训练集包含118K个图像和250K个实例,测试集包含5K个图像。

还采用了 coco、PoseT rack、300Wface, FreiHand and InterHand 数据集。

6.2 Evaluation Metrics and Tools

Halpe FullBody. 将COCO关键点的评估指标扩展到全身场景。COCO定义了由每个关键点常数 k控制的 OKS,对于我们新添加的关键点,我们将脚、脸和手的 k 设置为0.015。与COCO相同,AP 0.5:0.95:0.05作为主要报告指标,另外我们还报告了身体、脚、脸和手的详细结果。

COCO-WholeBody. 采用与我们相同的度量,但某些关键点上的常数k与我们不同。

6.4 Evaluation for Full Body Pose Estimation

YOLOv3作为人体检测器。
在这里插入图片描述

表2:Halpe FullBody数据集上的全身姿势估计结果。为公平比较,使用 single-scale testing 获得结果。在基于自顶向下的方法中,我们只报告姿态模型的输入大小和GFLOPS,而忽略检测模型。“hm”表示网络使用基于热图的定位,“si”表示网络采用对称积分回归。FastPose50表示以ResNet50为 backbone 的FastPose网络,FastPose152 也是如此。“dcn”表示ResNet主干中采用了可变形卷积层。


在这里插入图片描述

表3:COCO-WholeBody数据集上的全身姿态估计结果。为公平比较,使用 single-scale testing 获得结果。“OpenPose-default”和“OpenPose-maxacc”分别表示其默认和最大精度配置。“hm”表示网络使用基于热图的定位,“si”表示网络采用对称积分回归。“*”表示通过多域知识蒸馏训练的模型,PGPG.FastPose50表示以ResNet50为 backbone 的FastPose网络,FastPose152也是如此。“dcn”表示ResNet主干中采用了可变形卷积层。


在这里插入图片描述

图8。AlphaPose对全身姿态估计任务的定性结果。

6.5 Evaluation for Conventional Body Pose Estimation

在这里插入图片描述

表4 COCO test-dev 上的身体姿态估计结果。为公平比较,使用 single-scale testing 获得结果。“hm”表示网络使用基于热图的定位,“si”表示网络采用对称积分回归。


6.6 Ablation Studies for Pose Estimation

采用 two-step hm-norm 提升了 6 个点。
在这里插入图片描述

表 5。 Halpe Fullbody数据集和COCO数据集的消融研究。“hm-norm”表示热图归一化。“*”表示使用来自多域知识蒸馏的附加数据训练的结果。

8 LIBRARY ANALYSIS

本节中,在单个Nvidia 20080Ti GPU上将AlphaPose库与其他流行的开源库在姿态估计和姿态跟踪方面进行了比较。图11显示了不同库的速度精度曲线,从图11(a) 可以看出我们的方法在 whole-body 和 body-only 姿态估计上都实现了最优的速度与精度。尽管基于自顶向下的方法的运行时间会随着场景中人员的增加而增加,但我们的并行处理 pipeline 极大弥补了这一缺陷。根据 OpenPose 的统计数据,当场景中的人少于20人时,我们的库比它更高效。从图11(b) 中可以看出,我们的姿态跟踪在高效运行的同时实现了与 sota 库相当的性能。

在这里插入图片描述

图11。不同姿态估计和跟踪库的速度/精度比较。(a) 在COCOWholeBody val set 和COCO val set上获得的姿态估计结果。(b) 在PoseTrack18-val set 上获得的姿势跟踪结果。

9 CONCLUSION

本文提出了一个统一的实时多人全身姿态估计和跟踪框架,据我们所知,这是实现这一目标的第一个框架。为了实现这一目标,本文提出了几种提高性能的新技术,标注了一个包含全身关键点(每个人136个关键点)的新数据集。我们还提供了一个高度优化的标准库,以便使用。在未来研究中,我们将在我们的库中纳入3D 关键点和 mesh。

猜你喜欢

转载自blog.csdn.net/unauna9739/article/details/129118774