人体姿态估计技术的理解（Human Pose Estimination)

本人毕设题目是人体姿态估计技术的相关课题，本人按照自己对人体姿态估计技术的学习和理解进行论述，如有不足，请大家指正！！！

首先讨论一个问题：什么是姿态估计?

“姿势估计?……姿势这个词对不同的人可能有不同的含义，但我们不是在讨论阿诺德的经典作品、奥林匹亚或选美表演。那么，姿势估计到底是什么呢?那么，让我们深入探讨一下这个话题。

姿态估计在计算机视觉领域引起了极大的关注。人们越来越感兴趣的是能够使用计算机视觉技术实时识别和跟踪人或物体的运动，这在各行各业提供了很多有用性。在不断发展的先进技术时代，姿态估计可以成为体育生物力学、动画、游戏、机器人、医疗康复和监控领域的
有效工具。
本质上，姿势估计是根据一个人在图像或视频中的身体部位和关节位置来预测不同的姿势。例如，我们可以在做深蹲的时候自动检测关节、手臂、臀部和脊柱的位置。现在，我们中的一些人可能想知道它是如何有用的?然而，考虑一个运动员受伤后恢复或进行力量训练的例子;姿势估计可以帮助运动分析人员分析深蹲从起始位置到结束位置的关键点。因此，这些分析人员可以纠正姿势，帮助预防训练损伤。
图 1:下蹲时的人体姿势估计
在与人类合作时，姿态分析是通过确定各种身体关节来进行的。例如，它可以通过某人肘关节的位置或膝关节的位置来确定。这种形式的姿态检测属于人体姿态估计的范畴。姿态估计模型以处理良好的图像或视频的形式提供输入。该模型根据输入图像中的信息提供关于不同关键点的输出。一般来说，关键点被提供了一个 ID 和一个置信度分数，决定了一个关键点存在于给定输入的特定位置的概率。现在，如果我们回忆一下之前运动员做深蹲的图像，我们可以分配各种 id，例如:
在这里插入图片描述
相反，与人类受试者不同的是，对于主要是刚性的物体，可以进行姿态估计;因此，它们属于刚性姿态估计的范畴。

2D 和 3D 方面的姿态估计

姿态估计可以通过两种方式进行，即 2D 和 3D。也许，我们中的一些人将 2D 和 3D 的这些概念与动画领域联系起来。然而，2D 方面的姿态估计与基于像素值从图像中预测关键点有关。因此，大多数 2D 人体姿态估计技术都实现了特征提取方法，以提供人体的适当关键点。类似地，3D 姿态估计与从图像和视频中预测特定的人或物体的空间位置有关。随着深度学习的出现，这些模型的性能有了显著的提高，但它们的使用更加复杂，因为数据集需要与适当的人体 3D 结构信息(包括背景和照明条件)进行整理。此外，还有新的方法用于与检测一个人或物体或跟踪多个人和物体相关的单姿态和多姿态估计。

姿态估计模型

各种研究人员提出了不同的姿态、估计模型。在深入探讨之前，有必要了解一下，人体姿态估计模型基本上有三种类型:

运动的
平面的
体积的
运动学模型可用于 2D 和 3D 姿态估计。本质上，这个模型侧重于不同的关节和肢体位置，以提供人体的结构信息。因此，这样的模型有效地识别了人体各部位之间的各种关系。然而，运动学模型在表示基于纹理或形状的信息时几乎没有限制。接下来，我们讨论强调 2D 姿态估计的平面模型。理想情况下，人体部位用矩形表示，以提供近似人
体轮廓。最后，体姿态估计模型专注于 3D 姿态估计。这些是端到端的深度学习模型，使用包含全身扫描高分辨率数据的复杂数据集进行训练，以导出各种形状和姿态的人体网格。

虽然不可能涵盖广泛的模型，但我们将讨论近年来用不同的方法提出的一些最可靠和鲁棒的模型。

让我们来看看 2022 年正在使用的一些流行的姿态估计。

开放姿态
开放姿势是卡内基梅隆大学开发的第一个实时后估计模型。该模型主要专注于在实时场景中检测多人的手、脸、脚等人体关键点。一般来说，图像是在卷积神经网络(CNN)的帮助下处理的，以生成特定输入的特征映射。进一步，通过 CNN 管道的不同阶段对特征图进行处理，得到置信度图和亲和场。
![2
移动网络
移动网络是由谷歌研究使用 TensorFlow.js 开发的。研究人员声称，该模型具有超快、高精度的特点，能够检测人体的 17 个关键关键点。然而，该模型有两个版本，即“闪电”，针对的是对延迟要求低的应用。另一方面，Thunder 版本是为专注于实现更高精度的应用而设计的。此外，这两个模型都能够进行实时检测，并已被证明可以有效地检测实时健身、体育或基于医疗保健的应用。
PoseNet
PoseNet 是另一个流行的姿势检测模型。该模型可以实时检测姿态，并高效地用于人体的单姿态和多姿态检测。PoseNet 是一个深度学习模型，它使用 TensorFlow 来检测不同的身体部位，并通过连接其他关键点提供全面的骨骼信息。此外，PoseNet 还为人体从眼睛到脚踝的各个部位提供了 17 个关键点。生成一个置信度分数，以确定模型从图像中识别特定关键点的精准程度，从而识别模型的准确性。所有关于测试和配置的信息都可以通过 GitHub 访问。
DCpose
DCPose 代表深度双连续网络，开发用于从多帧检测人体姿势。该框架利用深度学习技术来克服多帧人体姿态估计中的关键挑战，如运动模糊、散焦视频，以及由于对每个视频帧的依赖而发生的遮挡。此外，这些视频帧之间提供了各种时间参考，以促进准确的关键点检测。进一步，时间合并充当编码器，以实现更广泛的搜索范围，而残差融合模块负责计算不同方向的残差。
Densepose
DensePose 是一个人体姿态估计器，旨在从关于人体 3D 表面的 RGB 图像中映射各种基于人体的像素。该模型可以实现单姿态和多姿态估计的必要性。DensePose 以包含图像到表面注释信息的大规模数据集的形式使用地面真相。此外，提出了一种循环神经网络(RCNN)，能够以每秒多帧的速度回归每个人体受试者之间不同身体部位相关的 UV 坐标。
HigherHRnet
HigherHRNet 是一种流行的自下而上的姿势估计模型，旨在解决由于比例差异而在预测矮个子的正确姿势时遇到的一些挑战。特征金字塔是必不可少的组成部分，它允许所提出的方法从尺度感知表示中学习，帮助估计精确的关键点，以确定矮个子的姿态估计变化。特征金字塔主要包括由 HRNet 模型生成的特征图输出，包括由转置卷积产生的高分辨率输出。此外，作者还发现，对于中等规模的人来说，该模型比现有的一些自下而上的方法的AP高出2.5%。此外，该模型在从拥挤的场景中估计姿态时也能有效地表现。

结论

姿态检测是计算机视觉领域中一个不断发展的研究领域。从提供现实生活中的应用程序到在云端服务器上运行的应用程序，姿态估计在业界获得了极大的吸引力。事实上，先进的姿态估计模型更快、更小，才能在移动设备上发挥作用，这提供了充足的机会。这些模型可以实时有效地为体育分析师服务，甚至在医疗康复、私人教练和逼真的游戏中都是可靠的。虽然已经开发了各种应用，但每一种新模型都旨在改善之前模型的一些局限性。
然而，随着深度学习和多种开源技术的使用，各种产品都符合要求，可以改变未来人体姿态估计的执行方式。因此，令人兴奋的前景已经打开，使有效跨行业实现最先进的姿态检测应用成为可能。