ACM MM 2023 | 基于去中心化表征的人体姿态估计方法

01. 前言

北京邮电大学与EVOL创新团队共同提出人体姿态估计方法DecenterNet,用于在提高在拥挤场景下人体姿态估计的准确度。该方法引入了一种去中心化的姿势表征方法,使得网络在纠缠区域/拥挤区域中将更加稳健地表达人体姿态。该方法还提出了一个解耦的姿势评估机制,以自适应地在多个姿态表征中选择最佳姿势。该论文DecenterNet: Bottom-Up Human Pose Estimation Via Decentralized Pose Representation已被ACM MM 2023接收。

02. 背景与动机

在拥挤的场景中进行多人体姿态估计仍然是一个极具挑战性的任务。我们发现目前的人体姿态估计方法在拥挤的场景中的失败大部分来自于无法定位或分组可见的关键点,而不是推理不可见的关键点,如表一。

因此,本文将拥挤的场景分为纠缠和遮挡两种情况,并观察到在拥挤的场景中,纠缠是一个重要的问题。基于这一观察,我们提出了DecenterNet,这是一种端到端的人体姿态估计方法,可以稳健、高效地进行拥挤场景中的姿态估计。

在DecenterNet中,我们引入了一种去中心化的姿势表征方法,该方法以所有可见关键点作为表征点来代表人体姿势,使得网络在纠缠区域/拥挤区域中将更加稳健地表达人体姿态。为了解决上述姿势表征引入过多的False Positive问题,我们还提出了一个解耦的姿势评估机制,该机制引入了location map,以自适应地在多个姿态表征中选择最佳姿势。此外,我们还构建了一个名为SkatingPose的新数据集,其中包含了更多带有纠缠的花滑场景。

03. 方法

3.1 去中心化的姿态表征(Decentralized Pose Representation)

传统的工作采用姿态的中心点、姿态的盆骨点或者人体部位的中心点来表征姿态,之后汇总这些表征点的输出,再经过NMS算法得到人体姿态。然而,当在拥挤的场景中人体姿态发生纠缠时,它们的表征点可能会相互遮挡,从而使得此点代表的姿态发生错误。因此,我们提出了去中心姿势表征(Decentralized Pose Representation)以缓解拥挤场景中的纠缠问题。具体来说,此表征以姿态所有可见关键点作为表征点,并缩小表征点范围来减小相互遮挡的可能性。一方面,姿态的可见点很难被完全遮挡,比中心点更具辨别性。另一方面,融合来自更多不同位置的表征点的预测会产生更全面、更稳健的预测。

3.2 解耦的姿势评估机制(Decoupled Pose Assessment)

可以预见的是,由于使用了过多的表征点,上述的姿势表征将引入大量的False Positive问题,因此我们提出了解耦的姿势评估机制,将传统的heatmap的选表征点和评估姿态的两个功能解耦给了heatmap和location map,如下图所示。

在此姿态评估机制中,location map的作用尤为关键。它一方面被用于从offset map中选取表征点,另一方面可以进一步增强heatmap的评分功能。具体来讲,location map是由4x4的全1正方形区域监督,并与offset map的loss相乘来动态地表征offset map上姿态的置信度。传统的表征点heatmap的极大值点并不能代表此表征点的姿态质量最好,而location map可以自适应地选择置信度高的姿态表征点,从而得到更优解。

04. 实验结果

我们在COCO,CrowdPose,SkatingPose三个数据集中进行了实验。相比于其他自底向上的人体姿态估计方法,DecenterNet以较低的参数量和计算量实现了SOTA结果。其中,CrowdPose数据集没有区分可见点与不可见点,我们使用人体实例方法Mask2Former来进行区分。

05. 总结

DecenterNet是一种用于拥挤场景中人体姿态估计的端到端方法。该方法采用去中心化的人体姿态表征,以所有可见的关键点作为表征点来表征人体姿势,从而在纠缠区域中得到更好的结果。此外,DecenterNet还采用了解耦的姿态评估机制,通过location map自适应地选择最优姿态。我们还构建了一个名为SkatingPose的新数据集,其中包含了更多带有纠缠的花滑场景。

EVOL创新团队成员介绍
EVOL联合创新团队负责人:
赵健(军事科学院),博士、北京图象图形学学会理事,入选北京市科协/中国科协“青年人才托举工程”,曾获吴文俊自然科学奖一等奖,研究方向为无约束视觉感知理解。
个人主页:
https://zhaoj9014.github.io/
金磊(北京邮电大学),博士、北京邮电大学特聘副研究员,研究方向包括人体姿态估计、人体解析、人体行为识别等。
个人主页:
ACM MM 2023 | 基于去中心化表征的人体姿态估计方法

  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

猜你喜欢

转载自blog.csdn.net/hanseywho/article/details/133385181
mm