【姿态估计】PoseMachine: 通过推理机进行关节姿态估计 Articulated Pose Estimation via Inference Machines

原文地址:http://www.cs.cmu.edu/~vramakri/poseMachines.html

Varun Ramakrishna, Daniel Munoz, Martial Hebert, J. Andrew Bagnell, and Yaser Sheikh
卡耐基梅隆大学机器人研究所

摘要 用于关节人体姿态估计的最先进方法基于部件的图模型。这些模型通常仅限于树形结构表示和简单的参数,以便实现易处理的推理。但是,这些简单的依赖关系无法捕获身体部位之间的所有交互。虽然可以定义具有更复杂交互的模型,但是通过难以处理或近似推断来学习这些模型的参数仍然具有挑战性。本文不是对学习的图模型进行推理,而是建立在推理机器框架上,并提出了一种用于关节人体姿态估计的方法。作者的方法融合了不同尺度部分的多个部分和信息之间的丰富空间的相互作用。此外,作者的方法的模块化框架使得无需专门的优化求解器即可轻松实现并有效推理。作者在两个具有较大姿态变化的具有挑战性的数据集上分析了作者的方法,并且在这些基准测试中表现优于最新技术水平。

1. 引言

从图像估计人体的关节姿态有两个主要的复杂思路。第一个起源于下面的铰接骨架的大量自由度(接近20个),这导致要搜索高维配置空间。第二个是由于图像中人物外观的巨大差异。每个部件的外观可能因配置,成像条件和人与人而异。

在这里插入图片描述
图1 减少重复计数错误。通过更丰富的交互建模,可以防止树模型中出现的重复计算错误。在左边,作者的方法展示了每个阶段人的左脚的置信度。这种置信度很快就会达到一个尖峰。在右边,树状结构模型[5]具有多个峰值的左脚最大边缘,导致两条腿被估计在图像中的同一区域。

为了应对这种复杂性,目前的方法[1,2,3,4,5,6]采用图模型来捕获零件位置之间的相关性和依赖性。然而,除了最简单的模型之外,图模型中的推理在所有模型中都是困难和不精确的,例如树形结构模型或星形结构模型。这些简化模型无法捕获每个部件的位置之间的重要依赖性并导致特征错误。一个这样的错误是重复计数(见图1)——这在图像的相同区域用于解释多个部分时发生。出现此错误是因为身体部位的对称外观(例如,左臂和右臂通常具有相似的外观),并且身体的不同部分相互遮挡。使用图模型对此外观对称性和自遮挡进行建模需要额外的边缘并在图中引入循环。这种非树结构化图模型通常需要使用近似推理(例如,循环置信传播),这使得参数学习变得困难[7]。

图模型的第二个限制是,在指定交互类型时,需要仔细考虑定义潜在功能。这种选择通常由参数形式(如简单的二次模型)主导,以便实现易处理的推理[1]。最后,为了在实践中进一步实现有效的推理,许多方法也被限制使用简单的分类器,例如用于零件检测的线性模型的混合[5]。这些是由推理的可控性而不是数据的复杂性引导的选择。这种权衡导致限制性模型不能解决问题固有的复杂性。

作者的方法通过直接训练推理过程,避免了这种复杂性与易处理性的权衡。作者提出了一种用于铰接式人体姿态估计的方法,该方法构建了最初用于场景解析的分层推理机[8,9]。从概念上讲,所提出的方法,作者称之为姿态机,是一种顺序预测算法,它模拟消息传递的机制来预测每个变量(部分)的置信度,迭代地改进每个阶段的估计。推理机架构特别适合于解决姿态估计中的主要挑战。首先,它在多个变量之间包含更丰富的交互,减少了重复计算等错误,如1图所示。其次,它直接从数据中学习表达空间模型,而无需指定潜在函数的参数形式。第三,其模块化架构允许使用高容量预测器,这些预测器更适合处理每个部件的高度多模态外观。灵感来自最近的工作[10,11],它们已经证明了检测更大的组成零件对改善定位调节更精细部件检测的重要性,作者通过对零件层次结构进行建模,将这些多尺度线索纳入作者的框架中。

作者的贡献在于该方法同时解决了使用推理机的架构进行关节姿态估计的两个主要挑战。此外,作者的方法易于实现,在测试时不需要专门的优化求解器,并且在实践中是有效的。作者对两个具有挑战性的数据集的分析表明,作者的方法改进了现有技术,并提供了一个有效的替代框架来解决明确的人体姿态估计问题。

2. 相关工作

从图像和视频中估计人体明确的姿态有很多工作要做。作者专注于从单个图像估计2D姿态的方法。从图像中估计姿态的最流行的方法是使用图像结构。图结构模型[1,2,3,4,5,6],将人体表达为树状结构的图模型,其中运动学先验可以连接四肢。这些方法在人的所有肢体都可见的图像上是成功的,但是容易出现特征误差,例如重复计算图像证据,这是由于未由树状结构模型建模的变量之间的相关性而发生的。

目前已经有人已经采用了具有非树相互作用的图结构模型[12, 13, 14, 15]估计单个图像中的姿态。这些模型增强了树结构,以捕获树中未链接的部分之间的遮挡关系。对这些模型执行精确推断通常是难以处理的,需要使用学习和测试时间的近似方法。最近的方法也探索了使用部分层次结构[16, 17],和以对定位区域中较大关节周围的较小部件为条件的检测[11, 10, 18, 19],这种方法在规范配置中模拟肢体建模,并且往往更容易检测。

以上模型通常涉及一定程度的细节建模。例如, [3]通过假设成对的潜在参数形式来模拟变形先验,并且[5]限制每个部件的外观属于混合模型。通常需要这些权衡以实现易于理解的学习和推理。即便如此,学习这些模型的参数通常还包括微调求解器或近似分段方法。作者的方法不需要量身定制的求解器,因为它的模块化架构允许作者利用经过充分研究的算法来训练有监督的分类器。

[20]中使用强大的外观模型,通过使用简单的树状结构模型训练旋转相关的部分探测器和头部和躯干的独立部分探测器。在[在[21通过使用多个随机森林阶段来学习更好的部分探测器。然而,这种方法使用树形结构的图模型来强制空间一致性。作者的方法概括了使用前一阶段的输出来改进部分的概念定位,以非参数数据驱动的方式学习空间模型,并且不需要设计特定于部分的分类器。

作者的方法与深度学习方法[22]有一些相似之处从广义上讲,它也是一个多层模块化网络。然而,与以全局方式训练的深度学习方法(例如,使用反向传播)相反,每个模块以受监督的方式在本地训练。

作者的方法将部分定位减少到一系列预测。在文献中时常重新使用顺序预测——将预测因子的输出从前一阶段提供到下一阶段。方法如[23,24]将顺序预测应用于自然语言处理任务。而[25]探讨了使用相邻像素分类器的上下文来进行计算机视觉任务。作者的方法基于分层推理机器架构[8,9]将结构化预测任务减少到一系列简单的机器学习子问题。先前已经在图像和点云标记应用中研究了推理机[8,26]。在这项工作中,作者的贡献是扩展和分析推理机框架,用于关节姿态估计任务。

3. 姿态推理机

3.1 背景

作者将关节姿态估计问题视为结构化预测问题。也就是说,作者模拟图像中每个解剖部位(作者称之为部分)的像素位置 Y p Z R 2 Y_p\in\mathcal Z\subset \R^2 ,其中 Z \mathcal Z 是图像中所有 ( u , v ) (u,v) 位置的集合。作者的目标是预测所有 P P 部分的结构化输出 Y = ( Y 1 , . . . , Y P ) Y=(Y_1,...,Y_P) 。推理机由一系列多类分类器 g t ( ) gt(·) 组成,它们经过训练可预测每个部分的位置。在每个阶段 t 1 , . . . , T t∈{1,...,T} ,分类器基于图像数据 x z R d x_z∈\R_d 的特征和来自每个 Y p Y_p 周围附近的前一分类器的上下文信息来预测置信度,为每个部分分配位置 Y p = z , z Z Y_p=z,∀z∈Z 。在每个阶段,对变量的估计的置信度越来越精确。对于序列的每个阶段 t t ,计算分配 Y p = z Y_p=z 的置信度并表示为

(1) b t ( Y p = z ) = g p t ( x z ; i = 1 P ψ ( z , b t 1 i ) ) , b_t(Y_p=z)=g_p^t(x_z;⊕_{i=1}^{P}\psi(z,b_{t-1}^i)),\tag 1

其中

(2) b t 1 i = { b t 1 ( Y p = z ) } z Z b_{t-1}^i=\{b_{t-1}(Y_p=z)\}_{z\in\mathcal Z}\tag 2

是在每个位置 z z 评估的先前分类器对于第 p p 部分的置信度集合。特征函数 ψ : Z × R Z R d c ψ:\mathcal Z×\R^{|Z|}→\R^{d_c} 计算上下文来自分类器先前置信度的特征, ⊕表示运算符用于矢量连接。

与传统的图模型(如图结构)不同,推理机框架不需要通过潜在函数对变量之间的依赖关系进行显式建模。相反,使用分类器任意组合依赖关系,这可能使变量之间的复杂交互成为可能。通过一系列更简单的子问题直接训练推理过程,允许作者使用任何监督学习算法来解决每个子问题。作者在监督学习中利用最先进的技术,并使用能够处理多模态变化的复杂预测器。如下一节所述,作者的关节姿态估计方法采用分层均值场推理机的形式 [8] ,其中每个变量使用的上下文信息来自图像中的比例和空间中的相邻变量。

与传统的图模型(如图结构)不同,推理机框架不需要通过潜在函数对变量之间的依赖关系进行显式建模。相反,使用分类器任意组合依赖关系,这可能使变量之间的复杂交互成为可能。通过一系列更简单的子问题直接训练推理过程,这样可以使用任何监督学习算法来解决每个子问题。作者在监督学习中利用最先进的技术,并使用能够处理多模态变化的复杂预测器。如下一节所述,作者的关节姿态估计方法采用分层均值场推理机[8]的形式,其中每个变量使用的上下文信息来自图像中的比例和空间中的相邻变量。

3.2 合并层次结构

最近的工作 [11,10] 已经表明,以较大复合部件的位置为条件的部件检测改善了姿态估计性能;然而,这些复合零件通常被构造成形成树状图结构 [16] 。受这些最新进展的启发,作者设计了一种分层推理机,它类似地编码图像中不同比例的部件之间的这些相互作用。作者定义了从较小的原子部件到较大的复合部件的部件层次结构。层次结构的每个级别 L L 具有不同类型的部分。在最粗糙的层次上,层次结构捕获整个身体。下一级由模拟完整肢体的部分组成,而层次结构的最精细级别由模拟周围区域的小部分组成。作者用 P 1 , . . . , P L P_1,...,P_L 表示层次结构的每个 L L 级别中的部件数量。在下文中,作者将 l g t p ( ) ^lg_t^p(·) 表示为 t t 阶段中的第 l l 水平为 p p 部件预测的分类器,其预测 p p 部分的分数。虽然可以在层次结构的每个层次 l l 中为每个部分 p p 训练单独的预测变量,但实际上,作者使用单个多类预测变量,从而在层次结构中对给定特征向量中的所有部分产生一组置信度。为简单起见,作者删除上标并将此多类分类器表示为 l g t ( ) ^lg_t(·)

在这里插入图片描述
图2
(a)多级预测。针对层次结构的每个级别训练单个多类预测器,以将每个图像块预测为 P l + 1 P_l+1 类中的一个。通过评估图像中的每个补丁,作者创建了一组置信映射 l b t ^lb_t
(b)姿态推理机的两个阶段。在每个阶段,训练预测器以预测输出变量的置信度。该图描绘了在测试时在推理机中传递的消息。在第一阶段,预测变量基于在图像块上计算的特征产生对每个部分位置的置信度的估计。后续阶段预测因子通过上下文特征函数 ψ ψ 使用前一阶段输出中的附加信息细化这些置信度。

要获得每个部件位置置信度的初始估计值,在序列的第一阶段 ( t = 1 ) (t=1) ,预测器 l g 1 ( ) ^lg_1(·) 作为在图像位置 z z 处提取的切片上计算的输入特征,并将片分类为 P l P_l 之一的零件类或背景类(见 图2a ),用于层次结构中第 l l 级别的部分。作者用 x z l x_z^l 表示图像中以位置 z z 为中心的层次的 l l 级别的图像块的特征向量。因此,第一阶段 t = 1 t=1 中层次结构的 l l 级别的分类器产生以下置信度值:

(3) l g 1 ( x z l ) { l b 1 p ( Y p = z ) } p 0... P l , ^lg_1(x^l_z)→\{^lb^p_1(Y_p=z)\}_{p\in0...P_l},\tag 3

其中 l b 1 p ( Y p = z ) ^lb^p_1(Y_p=z) 是由分类器 l g 1 ^lg_1 预测的分数,用于在层次结构的 l l 级别中分配 p p 部分。类似于 方程式2 ,作者代表在图像中每个位置 z = ( u , v ) T z=(u,v)^T 评估的等级 l l 的部分 p p 的所有置信度为 l b t p R w × h ^lb^p_t \R^{w×h} ,其中图像的宽度和高度分别为w和h。

(4) l b t p [ u , v ] = l b t p ( Y p = z ( u , v ) T ) . ^lb^p_t[u,v]=^lb^p_t(Y_p=z(u,v)^T).\tag 4

为方便起见,作者将属于级别 l l 的所有部分的置信映射集合表示为 l b t R w × h × P l ^lb_t∈\R ^{w×h×P_l} (参见图2a).

在后续阶段,类似地计算每个变量的置信度等式1。为了利用层次结构中的比例级别的上下文,预测被定义为

(7) l g t ( x z l , l 1... L ψ ( z , l b t 1 ) ) { l b t p ( Y p = z ) } p 0... P t , ^lg_t(x^l_z,⊕_{l\in1...L}\psi(z,^lb_{t-1}))→\{^lb^p_t(Y_p=z)\}_{p\in0...P_t},\tag 7

图2b 所示,在第二阶段,分类器 l g 2 ^lg_2 x z l x^l_z 作为输入特征,并且通过特征函数 ψ ψ 对于前一阶段的每个部分计算置信度的特征。请注意,部件使用的预测功能是根据所有部件的输出和层次结构的所有级别计算的 ( { l b t 1 } l 1... L ) (\{^lb_{t−1}\}_{l∈1...L}) 。推理机架构通过简单地提供变量上的特征来学习变量之间潜在的复杂交互前一阶段的输出(与在图模型中指定潜在函数相反)并允许分类器通过选择最具预测性的特征自由组合上下文信息。所有近邻变量的输出的使用类似于变分平均场推断中的消息传递机制 [9] 。

在这里插入图片描述
图3 上下文特征映射
(a)从每个位置的每个分数图计算上下文块特征。该图示出了5×5大小的上下文补丁。
(b)上下文偏移特征包括对每个分数图中已排序的峰值列表的偏移。

3.3 上下文特征

为了捕获每个部分相对于其邻居的置信度之间的空间相关性,作者描述了两种类型的因子,这两种因子具有由 ψ 1 ψ_1 ψ 2 ψ_2 表示的“上下文”特征图。

上下文块特征 位置 z z 处的特征映射 ψ 1 ψ_1 将层次级别l中的每个部分的位置的置信度图作为输入,并且生成特征,该特征是在置信度图 l b t p ^lb^p_t 中的位置 z z 处提取的预定宽度的矢量化补丁(见 图3a )。作者表示从零件的置信中在位置 z z 处在层次结构级别 l l 提取和矢量化的一组块,由 c 1 ( z , l b t 1 p ) ) c_1(z,^lb^p_{t−1})) 定义。因此给出了特征映射 ψ 1 ψ_1

(6) ψ 1 ( z , l b t 1 ) = p 0... P l c 1 ( z , l b t 1 p ) . \psi_1(z,^lb_{t-1})=⊕_{p\in0...P_l}c_1(z,^lb^p_{t-1}).\tag 6

换言之,上下文特征是位置 z z 处的分数的串联,其从层次结构的每个级别中的所有部分的置信度图中提取。上下文补丁对位置 z z 周围的邻近信息进行编码,因为它将作为因子图中的消息传递。请注意,因为作者对来自所有部分的上下文进行编码,这类似于具有完整图形结构的图形模型,并且难以进行优化。

上下文偏移特征 作者计算第二类特征 ψ 2 ψ_2 ,以便编码可能处于非均匀相对偏移的部分之间的长程相互作用。首先,作者执行非最大值抑制以获得排序列表每个 P l P_l 置信图 l b t 1 p ^lb^p_{t-1} 对于第一部分的所有部分层级的 K 峰值。然后,作者计算极坐标中的偏移向量位置 z z 到第 p p 部分的置信图中的每个 k k 峰和第 l l 水平表示为 l o k p R + × R ^lo^p_k R^+×R (参见 图3b )。从一个部分的置信图计算的上下文偏移特征定义为:

(7) c 2 ( z , l b t 1 p ) = [ l o 1 p ; . . . ; l o K p ] . c_2(z,^lb^p_{t-1})=[^lo_1^p;...;^lo^p_K].\tag 7

然后,通过连接上下文 c 2 ( z , l b t 1 p ) c_2(z,^ lb^p_{t−1}) 对于层次结构中的每个部分形成上下文偏移特征图 ψ 2 ψ_2

(8) ψ 2 ( z , l b t 1 ) = p 0... P l c 2 ( z , l b t 1 p ) . \psi_2(z,^lb_{t-1})=⊕_{p\in0...P_l}c_2(z,^lb^p_{t-1}).\tag 8

上下文块特征( ψ 1 ψ_1 )捕获关于相邻部分的置信度的粗略信息,而偏移特征( ψ 2 ψ_2 )捕获精确的相对位置信息。最终的上下文特征 ψ ψ 是通过连接两个特征来计算的: ψ ( ) = [ ψ 1 ( ) ; ψ 2 ( ) ψ(·)= [ψ1(·);ψ2(·)

3.4 训练

训练推理程序直接训练每个预测因子 { l g t } \{^lg_t\} ,在每个级别 l { 1 , . . . , L } l\in\{1,...,L\} 和每个阶段 t { 1 , . . . , T } t\in\{1,...,T\} 。作者在 算法1 中描述了训练过程。训练以阶段性的方式进行。第一组预测变量 { l g 1 } \{^lg_1\} 使用数据集 D 0 \mathcal D_0 进行训练,该数据集由在图像训练集中提取的补丁上的图像特征和标记组成。对于更深的阶段,通过提取创建数据集 D t \mathcal D_t 并且对于每个图像从置信图 { l b t 1 } l = 1 L \{^lb_{t−1}\}^L_{l=1} 在注释的位置连接上下文特征。

在这里插入图片描述

3.5 堆叠

训练这种推理过程的预测器很容易过度拟合。使用相同的训练数据来训练后续阶段中的预测变量将使他们依赖于来自前一阶段的上下文,或者过度拟合该特定数据集的特征。理想情况下,作者希望训练后续阶段,前一阶段的输出类似于在测试时遇到的阶段。为了实现这一点,作者使用堆叠训练的想法[27,23]。

堆叠式训练旨在防止在第一阶段的输出上训练的预测器在相同的训练数据上训练。堆叠的进行类似于通过将训练数据 D \mathcal D 分裂成 M M 个数据 { D m , D / D m } m = 1... M \{\mathcal D^m,\mathcal D/\mathcal D^m\} _{m=1...M} 进行交叉验证。对于作者在第一阶段训练的每个预测器,作者拷贝 M M 次,每个副本都训练在训练数据的 M M 个分裂中的一个上。为了创建下一阶段的训练数据,对于每个训练样本,作者使用未见于样本的预测变量的拷贝(即,样本在该预测变量的保持数据中)。以这种方式进行创建数据集以训练前一阶段输出的下一阶段,确保输出模拟测试时行为。作者重复每个后续阶段的堆叠程序。堆叠过程仅在训练期间执行,以便为后续阶段创建训练数据集。在测试时,作者在使用所有数据训练的每个阶段使用预测器。

在这里插入图片描述
图4 每个阶段的三级姿态推理机的输出。推理机迭代地产生对每个部分的位置的置信度的更精确估计。在第一阶段,仅从图像特征产生的估计是有噪声的,并且具有多种模式。后续阶段基于来自邻近因素的预测在正确位置处的尖锐单峰响应来细化置信度并且抑制背景中的假阳性响应。从左到右的置信度分别是头,左膝,右膝,左脚踝,右脚踝,左腿,右腿。

3.6 推理

在测试时,推断以顺序方式进行,如 图2 所示从图像中每个位置的不同尺度的块(对应于层次结构的每个 L L 级)提取特征并输入到第一阶段分类器 { l g 1 } l = 1 L \{^lg_1\}_{l=1}^L ,得到输出置信图 { l b 1 } l = 1 L \{^lb_1\}^L_{l=1} 。通过计算上下文将消息传递到下一阶段的分类器通过特征映射 ψ 1 , ψ 2 ψ_1,ψ_2 对置信度 l b 1 ^lb_1 的特征来自前一个阶段。更新的置信度 { l b 2 } l = 1 L \{^lb_2\}^L_{l=1} 由分类器 l g 2 ^lg_2 对每个阶段重复该过程。计算的置信度越来越高对部件位置的估算越精确,如 图4 所示。然后用以下公式计算每个部分的位置,

(9) l , p , l y p = arg max z l b T p ( z ) . \forall l,\forall p,^ly_p^*=\arg\max_z^lb_T^p(z).\tag 9

通过在最后阶段之后直接挑选每个部分的置信度图的最大值来计算最终姿态。

3.7 实现

预测器的选择 推理机架构的模块化特性允许插入任何监督学习分类器作为选择的多类预测器 g g 。由于数据分布是高度多模态的,因此需要高容量非线性预测器。在这项工作中,作者使用boost分类器[28]为弱学习器设计随机森林,因为随机森林经验证明在几个数据集上始终优于其他方法[29]。作者通过优化非光滑hinge loss来学习作者的增强分类器[30]。作者使用25次迭代的boost,使用随机森林分类器。每个随机森林分类器由10棵树组成,最大深度为15,并且仅当节点包含大于10个训练样本时才执行拆分。

训练 为了创建用于训练的正样本,作者在每个训练样本中的标记周围提取像素块。对于背景类,作者使用从负面样本训练语料库中采样的像素块,如文献[5]。此外,在后续阶段,作者从正确图像中的假阳性区域采样负的像素块。

图像特征 作者从图像中每个位置的像素块中提取一组图像特征。作者使用一组标准的简单功能来提供直接比较并控制功能对性能的影响。作者使用梯度直方图(HOG)特征,Lab颜色特征和梯度幅度特征。HOG特征是基于各个数据集中标记的人体姿态的结构来定义的,作者将在下一节中详细说明。在FLIC数据集中[11],只有一个上身模型被标记,作者使用6个方位,一个大小为4的bin。LEEDS数据集[6]标注了完整的身体模型,在层次结构的最精细级别使用6个方向,bin大小为8。对于层次结构中较粗糙的级别,作者将bin大小增加了两倍。对于上半身模型,作者使用9×9个HOG单元对层次结构中最精细水平的每个部分进行建模,而作者使用5×5个HOG单元作为全身模型。这些参数选择由以前使用这些数据集的工作指导[11,5]。

背景特征 对于背景像素块的特征,作者使用大小为21×21的像素块,每个2×2邻域中最大池化,导致每个置信度映射一组121维的数组。对于背景偏移特征,作者使用 K = 3 K=3 的峰值数。

4 评估

作者评估并比较了他们的方法与当时最先进方法在两个标准姿态估计数据集上的性能。

在这里插入图片描述
表1 :LEEDS运动姿态数据集的定量表现。性能由LEEDS体育数据集的测试集上的PCP度量来衡量。作者的算法优于所有当前的方法。

LEEDS体育姿态数据集 作者在LEEDS体育数据集上评估他们的方法[6],LEEDS数据集包含1,000张用于训练的图像和1,000张用于测试的图像。这些图像是各种运动姿态的人。作者使用在[10]中使用的以观察者为中心的标注来训练和测试。作者训练一个由2级层次结构组成的全身模型。层次结构的第二级包括对应于每个标注关节的14个部分。第一层包括6个复合部件,它们是通过对属于每个肢体的部件进行分组,头部和肩部的复合部件以及躯干的复合部件而形成的。使用包括200个图像的训练数据集的开发子集,通过网格搜索来引导参数选择。作者使用百分比修正部分(PCP)度量来评估和比较作者在数据集上的表现。结果列于表1中。作者的表现优于当时已有的方法,平均PCP得分为72.0。作者在图7显示了LEEDS数据集的几个代表性样本上算法的定性结果。

FLIC上身姿态数据集 作者还在FLIC数据集[11]上评估了方法。FLIC数据集由电影中的静止帧组成。该数据集包括4,000个用于训练的图像和1,000个用于测试的图像。作者使用经过训练的模型来识别上半身的姿态。作者采用两级层次结构。最细级的层次结构包括对应于标记的人体标志位置的七个部分,第二层包括对应于每个臂的三个复合部分和一个用于头部和肩部的复合部分。作者使用包括200个图像的训练数据集的开发子集,通过网格搜索来引导参数选择。作者使用[11]中指定的精度指标。作者在 图5 绘制了手腕和肘关节的准确性。作者的方法显示出对已有技术的显著改进[11]。作者在图8中显示了FLIC数据集的样本上算法的定性结果。

阶段数的影响 作者研究了在推理机中增加阶段数T的效果。 图5b 在FLIC数据集上将部件定位精度绘制为距离ground truth标签的距离的函数。看到仅根据图像特征预测零件位置(T =1)导致性能不佳。添加包含上下文信息的第二阶段(T = 2)导致准确性的显着增加。另外的第三阶段(T = 3)使该数据集的性能略有提高。设置阶段的数量类似于为消息传递算法(例如置信传播)设置迭代次数的方式。对于不同大小的数据集,可以通过评估每次迭代后的损失变化来设置阶段数。

作者在LEEDS Sports数据集上绘制了难度地标序列中阶段数的准确度变化(见图6)。作者观察到包括使用上下文信息的第二阶段大大提高了性能。作者还观察到膝盖和脚踝的轻微改善,以及在增加第三阶段时腕部和肘部的显着改善。

在这里插入图片描述
图5 (a)FLIC数据集上肘部和腕部定位精度的比较。与现有技术相比,作者对两个关节都具有更高的准确度[11]。
(b)阶段数的影响。作者根据序列中的阶段数绘制准确度的变化。作者观察到包括使用上下文信息的第二阶段大大提高了性能。作者还观察到在进一步增加第三阶段时略有改善。

在这里插入图片描述
图6 阶段数对LSP的影响。作者在LEEDS Sports数据集上绘制了序列中阶段数的准确度变化。额外的阶段改善了性能,特别是肘部和手腕等困难部位。

在这里插入图片描述
图7 LEEDS体育数据集的定性结果。作者的算法能自动学习空间模型并正确地定位传统方法困难的部分,如肘部和手腕。

5. 讨论

作者已经提出了一种用于铰接式人体姿态估计的推理机器。推理机架构允许作者学习丰富的空间模型并结合高容量监督预测器,从而显着改善姿态估计性能。仍然存在的主要挑战之一是正确处理遮挡姿态,这是算法的失败模式之一(图9)。第二种失败模式是由于罕见的姿态的训练实例太少。解决这些挑战需要了解人类姿态数据集的要求,以便训练算法在野外工作。处理复杂变量依赖性的能力导致未来工作的有趣方向,包括通过结合时间线索将方法扩展到单目视频,直接预测3D中的姿态,以及针对不同类别的关节对象调整方法。

在这里插入图片描述
图8 FLIC数据集的定性示例结果。作者的算法能够自动学习空间模型并正确地定位传统上困难的部分,如肘部和手腕。

在这里插入图片描述
图9 错误检测的模式。典型的失效模式包括严重的部位遮挡和罕见的姿态,训练集中存在的训练样本太少。当有多个人靠近时,该方法也容易出错。

致谢 本文基于美国国家科学基金会根据拨款1353120和1029679以及NSF NRI有目的预测项目提供的课题。

参考文献

  1. Felzenszwalb, P.F., Huttenlocher, D.P.: Pictorial structures for object recognition. IJCV (2005)
  2. Ramanan, D., Forsyth, D.A., Zisserman, A.: Strike a Pose: Tracking people by fi nding stylized poses. In: CVPR. (2005)
  3. Andriluka, M., Roth, S., Schiele, B.: Monocular 3D Pose Estimation and Tracking by Detection. In: CVPR. (2010)
  4. Andriluka, M., Roth, S., Schiele, B.: Pictorial Structures Revisited: People Detection and Articulated Pose Estimation. In: CVPR. (2009)
  5. Yang, Y., Ramanan, D.: Articulated pose estimation with exible mixtures-of-parts. In: CVPR. (2011)
  6. Johnson, S., Everingham, M.: Clustered pose and nonlinear appearance models for human pose estimation. In: BMVC. (2010)
  7. Kulesza, A., Pereira, F.: Structured learning with approximate inference. In: NIPS. (2007)
  8. Munoz, D., Bagnell, J.A., Hebert, M.: Stacked hierarchical labeling. In: ECCV. (2010)
  9. Ross, S., Munoz, D., Hebert, M., Bagnell, J.A.: Learning message-passing inference machines for structured prediction. In: CVPR. (2011)
  10. Pishchulin, L., Andriluka, M., Gehler, P., Schiele, B.: Poselet conditioned pictorial
    structures. In: CVPR. (2013)
  11. Sapp, B., Taskar, B.: MODEC: Multimodal Decomposable Models for Human Pose Estimation. In: CVPR. (2013)
  12. Wang, Y., Mori, G.: Multiple tree models for occlusion and spatial constraints in human pose estimation. In: ECCV. (2008)
  13. Sigal, L., Black, M.J.: Measure locally, reason globally: Occlusion-sensitive articulated pose estimation. In: CVPR. (2006)
  14. Lan, X., Huttenlocher, D.P.: Beyond trees: Common-factor models for 2d human pose recovery. In: ICCV. (2005)
  15. Karlinsky, L., Ullman, S.: Using linking features in learning non-parametric part models. In: ECCV. (2012)
  16. Tian, Y., Zitnick, C.L., Narasimhan, S.G.: Exploring the spatial hierarchy of mixture models for human pose estimation. In: ECCV. Springer (2012)
  17. Sun, M., Savarese, S.: Articulated part-based model for joint object detection and pose estimation. In: ICCV. (2011)
  18. Gkioxari, G., Arbelaez, P., Bourdev, L., Malik, J.: Articulated pose estimation using discriminative armlet classi ers. In: CVPR, IEEE(2013)
  19. Wang, Y., Tran, D., Liao, Z.: Learning hierarchical poselets for human parsing. In: CVPR, IEEE (2011)
  20. Pishchulin, L., Andriluka, M., Gehler, P., Schiele, B.: Strong appearance and expressive spatial models for human pose estimation. In: ICCV. (2013)
  21. Dantone, M., Gall, J., Leistner, C., Van Gool, L.: Human pose estimation using body parts dependent joint regressors. In: CVPR. (2013)
  22. Bengio, Y.: Learning deep architectures for AI. Foundations and trends in Machine Learning (2009)
  23. Carvalho, V., Cohen, W.: Stacked sequential learning. In: IJCAI. (2005) 24. Daume III, H., Langford, J., Marcu, D.: Search-based structured prediction. Machine Learning (2009)
  24. Bai, X., Tu, Z.: Auto-context and its application to high-level vision tasks and 3d brain image segmentation. PAMI (2009)
  25. Xiong, X., Munoz, D., Bagnell, J.A., Hebert, M.: 3-d scene analysis via sequenced predictions over points and regions. In: ICRA. (2011)
  26. Wolpert, D.H.: Stacked Generalization. Neural Networks (1992)
  27. Friedman, J.H.: Greedy function approximation: a gradient boosting machine. Annals of Statistics (2001)
  28. Caruana, R., Niculescu-Mizil, A.: An empirical comparison of supervised learning algorithms. In: ICML. (2006)
  29. Grubb, A., Bagnell, J.A.: Generalized boosting algorithms for convex optimization. In: ICML. (2011)
  30. Eichner, M., Ferrari, V.: Appearance sharing for collective human pose estimation. In: ACCV. (2012)

猜你喜欢

转载自blog.csdn.net/u014625530/article/details/85119046