(论文阅读28-33)人体姿态估计

28.文献阅读笔记

简介

题目

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

作者

Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh, CVPR, 2017.

原文链接

arxiv.org/pdf/1611.08050.pdf

【人体姿态估计2】Real-time Multi-person 2d pose estimation using part affinity fields_2017_realtime multi-person 2d pose estimation using par-CSDN博客

关键词

PAFs

研究问题

问题:

to efficiently detect the 2D pose of multiple people in an image:在一张图片中高效监测多人的2D姿态

挑战:

First, each image may contain an unknown number of people that can occur at any position or scale.

首先,每幅图像可能包含未知数量的人物,这些人物可能出现在任何位置或尺度上。

Second, interactions between people induce complex spatial interference, due to contact, occlusion, and limb articulations, making association of parts difficult.

其次,由于接触、遮挡和肢体衔接等原因,人与人之间的互动会产生复杂的空间干扰,从而使部件之间的关联变得困难。

Third, runtime complexity tends to grow with the number of people in the image, making realtime performance a challenge.

运行时的复杂性往往会随着图像中人物数量的增加而增加,使得实时性能成为一个挑战。

之前的方法:

自顶向下的方法:

采用人物检测器,对每次检测进行单人姿态估计。

缺点:人物检测器失效——当人处于近距离时很容易失效,则无法恢复。运行时间与人数成正比:每次检测都要运行单人姿态估计器,人数越多,计算成本越高。

自底向上的方法:对早期承诺具有鲁棒性,并有可能将运行时间的复杂性与图像中的人数脱钩。然而,自下而上的方法不能直接使用来自其他身体部位和其他人的全局上下文线索。以前的自下而上方法并不能保持效率上的优势,因为最终的解析需要昂贵的全局推理。新方法:联合标注部件检测候选对象,并将其与每个人相关联。然而,解决全连接图上的整数线性规划问题是一个 NP 难问题,平均处理时间大约为数小时。所以使用了基于 ResNet 的更强大的部件检测器和与图像相关的成对分数,极大地改进了运行时间,但该方法每张图像仍需几分钟,而且对部件建议的数量有限制。

研究方法

Part Affinity Fields (PAFs):该架构对全局上下文进行编码,允许采用自下而上的贪婪解析步骤,在保持高准确性的同时实现实时性能,而与图像中的人数无关。要通过同一序列预测过程的两个分支共同学习部件位置及其关联。

网络结构:

图像首先由卷积网络(由 VGG-19 [26] 的前 10 层初始化并微调)进行分析,生成一组特征图 F,输入到每个分支的第一阶段。

顶部分支(米黄色)预测置信度图,底部分支(蓝色)预测亲和场。

在每一阶段结束后,两个分支的预测结果与图像特征一起被串接到下一阶段。

损失函数:

解决梯度消失问题:梯度补充

通过执行非最大值抑制获得候选身体部位。

接下来需要对每对身体部位检测的关联性(即它们属于同一个人)进行置信度测量。如图 5b 所示,衡量关联性的一种可能方法是检测肢体上每对部位之间的额外中点,并检查其在候选部位检测之间的出现率。然而,当人们拥挤在一起时,这些中点很可能会支持错误的关联(如图 5b 中的绿线所示)。产生这种错误关联的原因有两个:(1) 它只对每个肢体的位置而非方向进行编码;(2) 它将肢体的支持区域缩减为一个点。

为了解决这些局限性,提出 "部分亲和力场 "的新型特征表示方法,它可以在肢体的支撑区域内同时保留位置和方向信息(如图 5c 所示)。部分亲和力是每个肢体的二维矢量场:对于属于特定肢体区域的每个像素,一个二维矢量编码了从肢体的一部分指向另一部分的方向。每种肢体都有一个相应的亲和场,将其两个相关的身体部位连接起来。

能够消除错误连接。

研究结论

PAFs同时推断这些自下而上的检测和关联表示,可以很好地编码全局上下文,从而使贪婪解析能够以极低的计算成本获得高质量的结果。

运行时间:(1) CNN 处理时间,其运行时间复杂度为 O(1),随人数变化而不变;(2) 多人解析时间,其运行时间复杂度为 O(n2),其中 n 代表人数。不过,解析时间对整体运行时间影响不大,因为它比 CNN 处理时间少两个数量级,

创新不足

见图9。常见的失败案例:( a )罕见的姿势或外观,( b )缺失或错误的零件检测,( c )重叠的零件,即两个人共享的零件检测,( d )错误的连接从两个人的关联零件,( e-f ):在雕像或动物上的假阳性。

额外知识

人体姿态检测的发展历程

29.文献阅读笔记

简介

题目

DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation

作者

Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, and Bernt Schiele, CVPR, 2016.

原文链接

https://arxiv.org/pdf/1511.06645.pdf

DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation-CSDN博客

关键词

整数线性规划的联合检测和姿势估计公式。AFR-CNN(调整后的Fast R-CNN)

研究问题

真实世界图像中多人的关节式人体姿态估计任务。

多人物姿态估计所面临的主要挑战是:部分人物的部分可见性、人物边界框区域的显著重叠以及图像中人物数量的先验未知。因此,问题在于如何推断出人物的数量,将部分检测结果分配给人物实例,同时遵守几何和外观约束。

两阶段推理过程:首先检测,然后独立估计姿势。这种方法不适合人员距离较近的情况,因为它们允许同时将同一个身体部位候选者分配给多个人员假设。

研究方法

提出了一种基于 CNN (Fast R-CNN)的人体部位检测器生成的人体部位假设集的分割和标记表述方法。

人体部位检测器:AFR-CNN、调整后的Fast R-CNN。

alter it in two ways: 1) proposal generation and 2) detection region size.

(部位标记)全卷积架构,用于计算部位概率积分图:vgg为基础,VGG 感受野可以看到整个身体,从而区分身体部位。

分类:哪些部位属于同一个人

研究结论

能推断出场景中的人数,识别出被遮挡的身体部位,并区分相互靠近的人的身体部位。

  1. 该方法能够处理未知人数,通过连接身体部位假设推断出未知人数。
  2. 该方法合并初始候选部件集中的部件假设,从而有效地执行非最大抑制(NMS),使整个过程更加可靠。
  3. 该问题采用整数线性规划(ILP)的形式。虽然该问题具有 NP 难度,但 ILP 形式便于计算边界和可行解,并具有经认证的最优性差距。

创新不足

由于使用了自适应的fast R-CNN进行人体的检测,同时又使用ILP进行人体姿态估计,所以计算复杂度非常大

额外知识

ILP:【精选】【数学建模笔记】2.整数规划_Imagine_cc的博客-CSDN博客

30.文献阅读笔记CPMs

简介

题目

Convolutional Pose Machines

作者

Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, CVPR, 2016.

原文链接

https://arxiv.org/pdf/1602.00134.pdf

关键词

Convolutional Pose Machines(CPMs)、articulated pose estimation

研究问题

Pose Machines provide a sequential prediction framework for learning rich implicit spatial models.

Pose Machines为了学习丰富的隐式空间模型提供了序列预测框架。

将CNN应用于pose machine framework

梯度消失的问题:

反向传播梯度在网络的多个层中传播时强度会减弱。

增大感受野,一般有如下几种方式:

增大pool,但是这种做法对图片额外添加的信息过多,会牺牲精度;

增大卷积核,但这种方式会增加参数量;

增加卷积层,但卷积层过多会造成网络的负担,造成梯度消失等问题

研究方法

将CNN应用于pose machine framework

学习图像特征和图像相关的空间模型的task of pose estimation(姿态估计)

CNN直接对来自上阶段的belief maps进行操作,对零件位置做出越来越精确的估计,而无需明确的图形模型式推理。

提供了一个自然的学习目标函数,强制执行中间监督,补充反向传播梯度并调节学习过程,解决了梯度消失的难题。

图像特征和前一阶段生成的belief maps都被用作输入。belief maps为后续阶段提供了每个部件位置空间不确定性的非参数编码,使 CPM 能够学习丰富的、与图像相关的部件间关系空间模型。

不使用图形模型,对belief maps进行操作,所以整个架构完全可微分,可以端对端训练。

为了捕捉longrange interactions:需要较大的感受野

Pose machines 和cnn pose machines对比

输入:裁剪图像归一化为368 × 368

网络结构:五个卷积层和两个1 × 1卷积层组成的网络结构(全卷积结构)

2c:第一阶段仅从局部图像证据中预测部分信念。证据是局部的,因为网络第一阶段的感受野被约束在输出像素位置周围的一个小块上。以一个较小的感受野对图像进行局部检查。

如果人体有p个关节点,那么belief map有p+1层(还有背景层)

其实就是heatmaps,各通道表示各关键点在每个像素位置处的概率

2d:第二阶段网络的输出层获得足够大的感受野,以便学习各部分之间潜在的复杂和long-range correlations。还要输入一个center map。center map是高斯响应,构造响应图的真值。

增大感受野:

增大stride,确实stride越大感受野相应的也增大,并且论文中指出,在高精度区域,8stride和4stride表现一样好。

研究结论

由卷积网络组成的序列架构能够通过在阶段之间交流日益精炼的不确定性保持信念来隐式地学习姿态的空间模型。

在所有的主要基准上都达到了最先进的准确性。

创新不足

多人检测失败

额外知识

高斯响应

31.文献阅读笔记

简介

题目

Stacked hourglass networks for human pose estimation

作者

Alejandro Newell, Kaiyu Yang, and Jia Deng, ECCV, 2016.

原文链接

https://arxiv.org/pdf/1603.06937.pdf

关键词

Human Pose Estimation

研究问题

CNN运用于Human Pose Estimation,

重复自底向上、自顶向下推理。

早期的工作:使用稳健的图像特征(局部解释)和复杂的结构化预测(推断全局一致的姿态)来解决这些困难。

现在:普遍采用卷积神经网络作为其主要构建模块,很大程度上取代了手工制作的特征和图形模型。

任务:从RGB图像中对单个人的姿态进行关键点定位。

研究方法

“stacked hourglass” network:

该网络在图像的所有尺度上捕获和整合信息,基于可视化的池化和后续上采样的步骤来得到网络的最终输出。

不同于以前的设计,主要是在其更对称的拓扑结构。

连续地将多个沙漏模块端到端地放在一起,在单个沙漏上进行扩展。这允许跨尺度自下而上、自上而下的重复推断。结合中间监督的使用,重复的双向推理对网络的最终性能至关重要。

有些方法通过使用单独的管道来解决这个问题,即在多个分辨率下独立处理图像,然后在网络中合并特征。

作者选择使用skip layers的单一管道,以保留每个分辨率下的空间信息。

网络的输出是一组热图,对于给定的热图,网络会预测每个像素上出现关节的概率。

以 256x256 的全输入分辨率运行需要大量 GPU 内存,因此沙漏的最高分辨率(也就是最终输出分辨率)为 64x64。这并不影响网络生成精确联合预测的能力。整个网络从一个步长为 2 的 7x7 卷积层开始,然后是一个残差模块和一轮最大池化,将分辨率从 256 降到 64。

在图 3 所示的沙漏之前有两个残差模块。在整个沙漏过程中,所有残差模块都会输出 256 个特征。

使用 1x1 卷积来减少步骤是有价值的,使用连续的较小滤波器来捕捉更大的空间背景也是有好处的。例如,可以用两个独立的 3x3 滤波器代替 5x5 滤波器。

将一个沙漏的输出作为下一个沙漏的输入。

通过额外的 1x1 卷积将中间预测映射到更多通道,从而将中间预测重新整合到特征空间中。这些特征与前一个沙漏阶段输出的特征一起被添加回沙漏的中间特征中(如图 4 所示)。由此产生的输出可直接作为下一个沙漏模块的输入,从而生成另一组预测结果。在最终的网络设计中,使用了八个沙漏。值得注意的是,沙漏模块之间并不共享权重,而且所有沙漏的预测结果都使用相同的ground truth,因此会产生损失。

网络在确定哪个人值得注释时,无法获得足够的信息。为此,我们对网络进行了训练,使其只对位于正中心的人进行注释。

研究结论

在MPII上,所有关节的平均精度都有超过2 %的提高,对于更困难的关节,如膝盖和脚踝,平均精度提高了4 - 5 %

创新不足

当图像中有多个人物时,一致性问题就变得尤为重要。网络必须决定对谁进行注释,唯一信号就是目标人物的居中和缩放,相信输入会足够清晰,便于解析。遗憾的是,当人物距离很近甚至重叠时,这偶尔会导致模糊不清的情况,

额外知识

图像处理:

自下而上:高分辨率到低分辨率

自上而下:低分辨率到高分辨率

上:低分辨率 提供更多语义信息,具有更大的视野

下:高分辨率 有更多像素,提供更多细节信息

全卷积网络和整体嵌套架构,自下而上处理能力都很强(即提取语义信息),但是自上而下处理能力都很弱,只能对多尺度预测进行合并。

32.文献阅读笔记

简介

题目

Flowing convnets for human pose estimation in videos

作者

Tomas Pfister, James Charles, and Andrew Zisserman, ICCV, 2015.

原文链接

https://arxiv.org/pdf/1506.02897.pdf

关键词

Human Pose Estimation in Videos

研究问题

视频中的人体姿态估计

研究方法

总体流程如下:

一、使用光流将多帧信息结合起来,从而从时间上下文中获益。

输入t以及其前后n帧rgb图片,相邻帧的热图可以使用光流进行扭曲和对齐,从而有效地在时间上传播位置信息。离t帧越远的帧权重越低。

邻近帧作为强有力的 "专家意见",通过端对端反向传播来学习专家池权重。

分别回归输入图像中每个关节的关节位置热图。该热图(最后一个卷积层 conv8 的输出)是一个固定大小的 i × j × k 维立方体(此处为 64 × 64 × 7,表示 k = 7 个上半身关节)。在训练时,通过在ground truth关节位置放置一个方差固定的高斯,为每个关节分别合成ground truth标签热图

l2 loss:对predicted heatmap and the synthesised(合成) ground truth heatmap.之间的像素平方差进行惩罚

回归热图而不是(x, y)坐标的好处:可以理解失败并直观地看到网络的 "思考过程";由于设计上允许网络的输出是多模态的,即允许在多个空间位置有置信度,因此学习变得更加容易:在训练的早期,一个给定的关节可能会在多个位置发生反应;随着训练的进行,错误的反应会慢慢被抑制。相反,如果输出只有手腕(x,y)坐标,那么网络只有在预测正确时才会有较低的损失(即使它对正确的位置 "越来越有信心")。

提高热图的空间分辨率:(i) 使用最小池化(只有两个 2 × 2 最大池化层);(ii) 所有步长都是统一的(这样分辨率就不会降低)。除 conv9(池化层)外,所有层后都有 ReLU。

卷积层代替全连接层

二、在初始热图之外增加卷积层,以学习人体布局的隐式空间模型。这些层能够学习人体各部位之间的依赖关系。这些 "空间融合 "层可以消除运动学上无法实现的姿势估计失败。

学习关节的空间依赖关系:Spatial fusion layers

(conv7)作为输入,学习人体位置之间的依赖关系,将 conv7 和 conv3(跳转层)的连接作为输入,并通过另外五个带有 ReLU 的卷积层进行反馈,大内核用于扩大网络的感受野。在该网络的末端附加了一个单独的损失层,并在整个网络中进行反向传播。

研究结论

在“野外数据集”上表现远优于目前技术水平。

创新不足

未涉及多人检测,

额外知识

光流:计算机视觉--光流法(optical flow)简介-CSDN博客

是空间运动物体在观察成像平面上的像素运动的瞬时速度。

光流计算使用FastDeepFlow

33.文献阅读笔记

简介

题目

Joint training of a convolutional network and a graphical model for human pose estimation

作者

Jonathan J. Tompson, Arjun Jain, Yann LeCun, Christoph Bregler, NIPS, 2014.

原文链接

https://arxiv.org/pdf/1406.2984.pdf

【姿态估计文章阅读】Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation-CSDN博客

关键词

human pose estimation、CNN、Markov Random Field

研究问题

human pose estimation、

研究方法

1、利用CNN做姿态估计,采用heatmap的方式来回归出关键点

2、利用人体关键点之间的结构关系,结合马尔科夫随机场的思想来优化预测结果,主要针对于网络预测的false postive。

研究结论

将新型ConvNet Part-Detector和MRF启发的空间模型统一到一个学习框架中,明显优于已有的人体姿态识别任务架构

创新不足

仍旧使用了结构域约束,而不是由深度学习自己学习关节位置结构。

额外知识

可以细看网络模型设计(我没细看),应该对网络模型会有更深的理解。

猜你喜欢

转载自blog.csdn.net/qq_46012097/article/details/134381191