基于参数化模型(MANO)的手势姿态估计---全面剖析

目前, 主流的手部姿态估计的技术方案是使用马普所于2017年提出的MANO参数化模型, 在此基础上回归3D坐标, 这是因为MANO有很合理的结构以及定义好的前向动力学树。本文的目的在于为大家介绍，基于MANO的手部姿态估计的流程：包括并不限于: 数据处理，MANO的推理流程(与论文对齐)，手的解剖学和生物学特点。

1. 什么是手部姿态估计？

我理解的 手部姿态估计(hand pose estimation) 是:
同人体姿态估计一样, 是给定一张手部特写图片，估计其姿态(2D/3D keypoint)的位置(通常是21个).

下图是一个最经典的实现(无参数化模型):

将一个手部特写图片(hand image)输入Encoder-Decoder结构中，从Decoder输出的特征图中，选取响应最大的位置，与ground truth生成2D landmark的热力图计算loss，目的是让Decoder生成的特征图在手部的不同位置有对应的响应，即从point of interest (PoI)变为构造一种regional of interest (RoI)的表示, 即让网络从关注某个确定的点，到关注一个范围, 以此扩大模型的泛化能力以及对复杂情况下的估计鲁棒性.

这种方法在参数化模型MANO/SMPL出现之前，是姿态估计领域的主流叙事.
在这里插入图片描述

此图来自2018年，Olha CHERNYTSKA(毕业于乌克兰天主教大学)的硕士毕业论文[3].

其中3D keypoint的坐标一般用相对坐标系表示, 对手部来说，一般会选择手腕(下图的0)/食指和手掌连接关节(下图5)作为局部坐标系的原点(0, 0, 0). 这种做法也叫做root-relative.

在这里插入图片描述

下图是以上图的节点5为原点的相对3D坐标表示，以下图为例, 我们想让节点5的坐标为(0, 0, 0)，在实践中，大家的做法一般很简单(伪代码):

img = cv2.imread("xxx.jpg")  # 1) 读取手部特写图片
img = normalize(img)         # 2) 对图片进行处理(规则化等)
pred_3d = Net(img)           # 3) 送入网络进行预测
pred_3d -= pred_3d[5]        # 4) 将预测结果变为root-relative的方式.

在这里插入图片描述

红框就是节点5，可见其坐标为(0, 0, 0).

2. MANO是什么？

近年来, CVPR, ECCV, ICCV的手部姿态估计论文，基本或多或少的都是model-based, 即基于参数化模型的方案。而其中，最主流的参数化模型就是Javier Romero, Dimitrios Tzionas, Michael J. Black于2017年发表于Siggraph Asia的《Embodied Hands: Modeling and Capturing Hands and Bodies Together》[1].

这篇文章也是在马普所和工业光魔联合提出的《SMPL: A Skinned Multi-Person Linear Model(2015)》[2]的基础上，提出了针对手部的参数化模型，其主要目的是:

To cope with low-resolution, occlusion, and noise, we develop a
new model called MANO (hand Model with Articulated and Non-rigid defOrmations).
图来自[1].

我的个人感受是，由于手势姿态估计的问题是:

自遮挡: 以下图为例，中指到小指都被手背挡住了.
手抓握物体导致的遮挡:
分辨率低: 手部在整个构图中的所占像素比例非常小，对正确估计其手势增加了难度.

确实，在全身/半身的时候，手势相比整体来说所占的像素非常小，所以难
以分辨其动作 MANO这个模型，相当于在图片 ->3D pose中间加了一个过渡表示(或者说加上了强经验prior，从而能够预测遮挡和低分辨率的图像）.
在这里插入图片描述

图来自Frankmocap仓库[4]

用不带先验信息的方法，即model-free的方法，对于这些情况的姿态估计效果通常就会失败。而自从有了参数化模型MANO，由于MANO是由 “1000 high-resolution 3D scans of hands of 31 subjects in a wide variety of hand poses.” 得到，其中包括抓握，不良光照等场景。

所以，根据18年以来的众多手部姿态分析工作表明：使用MANO参数化模型，对于估计出一个合理且准确的手部姿态，有至关重要的作用。

需要注意的是，由于手部是分段刚性的(articulated objects), 因此手部的建模还是有一定难度的，马普所用了来自美国亚特兰大的3dMD公司的扫描设备，估计花费不菲…, 至于MANO是怎么制作的，这里我不详细展开，有兴趣的朋友可以直接在文章下面问。

在这里插入图片描述

图来自中科大刘利刚老师的games102课程[5].

那么，MANO作为一个 3D参数化模型，其参数都有哪些呢？

778个vertices 1538个faces，并根据 16个关键点 +从顶点中获取 5个
手指指尖的点，构成完整的手部链条，或者叫做前向动力学树 (forward kinematic tree).
下图来自牛津大学的CVPR2019论文[7]《3D Hand Shape and Pose from Images in the Wild》.

(即图中的 ,16,17,18,19,20都是由变形后的 vertex中按照规定规则取到的 , 代码. 以节点9为例，其3D坐标可以在变形后的Mesh上，根据其所在顶点(vertex)去提取。

3. 手势3D pose estimation的MANO部分处理逻辑分析`重点`

如下图所示，手部的crop图片送入神经网络，预测得到 MANO所需的61个参数的值，其中包含 MANO所需的相机参数 (前 3个 ), θ(3-51), β(51:61)，其中θ是MANO中用于控制pose的参数，β则是 MANO中用于控制shape的参数。
在这里插入图片描述

其中，神经网络的设计就比较简单，只要按照输入和输出的结构设计就行，最经典的实现方案是UCB和马普所合作的CVPR2018论文: HMR[6], 其使用了auto-regressive的方式去优化预测的MANO所需的61个系数.

输入(bs,3,224,224)
为图像处理后得到的Tensor(NCHW，图像的分辨率可以按照自己的需求调整), bs是batch size.
输出为(bs, 61)
得到MANO所需的参数, 这些参数输入MANO, 我们就可以得到3D的pose estimation结果(相对坐标系下的21个关键点的xyz位置).

3.1 MANO的计算逻辑

下图来自CVPR2020的《Minimal-Hand》[8], 其把MANO的流程简单用两个公式概况了:
在这里插入图片描述

① $T(\beta, \theta) = \overline{T} + B_s(\beta) + B_p(\theta)$
此公式是将shape的参数 $\beta \in R^{10}$ 和pose的参数 $\theta \in R^{48}$ 进行变形，变形的实现通过 $B_{s/p}$ 实现。 $\overline{T}$ 表示一个标准的3D 手部mesh, 下图就是MANO的hand_mean $\overline{T}$ :

可以看到, MANO的 $\overline{T}$ 是一个手掌摊平的姿势, 在动画领域，一般称为T型姿势（T-pose）.

变形示意图:

② $M(\beta, \theta) = \mathbf{W}(T(\theta, \beta), \theta, \beta, W, J(\theta))$
通过第①步，我们得到变形后的mesh: $T(\theta, \beta)$ , 第②步的目的就是进行蒙皮操作(linear blend skinning), $W$ 是蒙皮权重， $J(\theta)$ 是节点的位置.

3.2 MANO的实际计算流程

好了，在了解了MANO的基本流程后，让我们回归正题，本篇文章的目的是分析 MANO究竟是如何处理cam, shape, pose的参数，来得到 (21, 3)的 joint rotation(axis-angle表示)的？

这里以下面的的rot_pose_beta_to_mesh函数为核心进行分析, 其中, rot_pose_beta_to_mesh接收3个入参, 拼起来正好是网络预测出来的61个参数:

rots $\in R^{3}$
root节点(手腕CMC)的旋转axis-angle.
poses $\in R^{45}$
除每个手指指尖外(除TIP这一排)和手腕外，所有的关键点的axis-angle (15*3=45), 下图来自ECCV2020 BMC[9]

手部的骨骼分为灰色的手腕(CMC), 黄色的MCP(手掌和各个手指的交界处), 绿色的PIP, 蓝色的DIP以及表示指尖位置的骨骼TIP。可见，骨骼是“横着”来命名的…

betas $\in R^{10}$
mano所需要的shape参数

3.2.1 MANO的一些参与计算的重要参数

kintree_table, parent 等动力学与继承关系参数
如下图所示，parent和 kintree_table组建了手势的链条

注意，kintree_table是不包含指尖的！！(只有 16个 joints 15个手指的 joints+1个 wrist joint)，也符合 MANO定义的结构形式，即没有上图的(4,8,12,16,20)这5个点.
hands_mean: 和 mesh_mu类似，这里的 hands_mean应该
是rest的手的axis-angle，其用法是用来加上网络预测的 pose (axis-angle)，再对其进行处理。
需要注意的是，这里的pose除了不包含TIP骨骼外，还不包括手腕.
mesh_mu: 下图 (MANO2017[1])的公式 2的 $\overline{T}$ . 即平均 shape。

公式2的计算得到的 $T_p$ 对应代码中的 $v_{posed}$ :
mesh_pca: 对应最大的 shape特征值的特征向量 , 因为 shape是根据pca取最大的 10维参数作为 shape的，这里的 mesh_pca根据其用法，是公式 4(MANO2017)里面的Sn。

对应代码:
J_regressor: 对应 (SMPL2015)的公式10, 其目的是: 将mesh上的顶点 (vertices)变为节点 (joints).
root_rot: 根节点, 是指手腕的那个点即下图的 0点，我理解这里应该是用这种方式来计算相对的距离。
posedirs: 根据之前的分析， posedirs就是MANO(2017)中公式3中的Pn, 表示pose的blend shape参数.
weights: weights就是3.1中公式2 $M(\beta, \theta) = \mathbf{W}(T(\theta, \beta), \theta, \beta, W, J(\theta))$ 的 $W$ .

3.2.2 旋转矩阵计算(Rodrigues)

这里主要分析的是rodrigues函数，此函数的目的是把轴向角(axis-angle)变为旋转矩阵(rotation matrix)[10].
在这里插入图片描述
下面代码里的n等于下图(SMPL2015)的unit norm axis of rotation $\overline{w}$ , R

R = I3 + torch.sin(theta).view(-1, 1, 1) * Sn \
    + (1. - torch.cos(theta).view(-1, 1, 1)) * torch.matmul(Sn, Sn)

等于SMPL2015的公式 (1), S(n_)函数对应的就是上面的Skew(V).
在这里插入图片描述

def rodrigues(r):
    theta = torch.sqrt(torch.sum(torch.pow(r, 2), 1))

    def S(n_):
        ns = torch.split(n_, 1, 1)
        Sn_ = torch.cat([torch.zeros_like(ns[0]), -ns[2], ns[1], ns[2], torch.zeros_like(ns[0]), -ns[0], -ns[1], ns[0],
                         torch.zeros_like(ns[0])], 1)
        Sn_ = Sn_.view(-1, 3, 3)
        return Sn_

    n = r / (theta.view(-1, 1))
    Sn = S(n)

    # R = torch.eye(3).unsqueeze(0) + torch.sin(theta).view(-1, 1, 1)*Sn\
    #        +(1.-torch.cos(theta).view(-1, 1, 1)) * torch.matmul(Sn,Sn)

    I3 = Variable(torch.eye(3).unsqueeze(0).cuda())
	
	# R等于 公式 (1)---SMPL
    R = I3 + torch.sin(theta).view(-1, 1, 1) * Sn \
        + (1. - torch.cos(theta).view(-1, 1, 1)) * torch.matmul(Sn, Sn)

    Sr = S(r)
    theta2 = theta ** 2
    R2 = I3 + (1. - theta2.view(-1, 1, 1) / 6.) * Sr \
         + (.5 - theta2.view(-1, 1, 1) / 24.) * torch.matmul(Sr, Sr)

    idx = np.argwhere((theta < 1e-30).data.cpu().numpy())

    if (idx.size):
        R[idx, :, :] = R2[idx, :, :]

    return R, Sn

3.2.3 `get_poseweights (poses, bszie)`

此函数用于计算 pose_weights属性，其 shape为 [bs, 135], 而 $135 = 45 * 3$ .
在这里插入图片描述
其分为 2步：

① 先将 poses([bs, 16, 3])送入3.2.2所介绍的rodrigues函数中, 按照SMPL2015的说法，其目的是将每个joint的 axis-angle转为rotation matrix.
pose_matrix为 [15xbs, 3, 3]
② pose_matrix 减去单位矩阵, 理解为 (MANO2017)公式 3的 $R_n(θ)- R_n(θ^*)$ :

在这里插入图片描述

def get_poseweights(poses, bsize):
    # pose: batch x 24 x 3
    pose_matrix, _ = rodrigues(poses[:, 1:, :].contiguous().view(-1, 3))
    # pose_matrix, _ = rodrigues(poses.view(-1,3))
    pose_matrix = pose_matrix - Variable(torch.from_numpy(
        np.repeat(np.expand_dims(np.eye(3, dtype=np.float32), 0), bsize * (keypoints_num - 1), axis=0)).cuda())
    pose_matrix = pose_matrix.view(bsize, -1)
    return pose_matrix

3.3 `rot_pose_beta_to_mesh`梳理

① 第一步是计算 poses和 v_shaped.

⚫ poses: poses是网络预测的axis angle + hand_mean (rest pose), 再加上 root_rot(wrist的位置，代码里面写为 (0,0,0), 是相对位置, 构造root-relative的结果). [bs, 16, 3]

⚫ v_shaped: 对应 SMPL2015的公式10里面的 $\overline{T}$ + Bs部分. [bs, 778, 3]
在这里插入图片描述

对应代码:
在这里插入图片描述

② 第 2步是计算 pose_weights, v_posed和 J_posed.

⚫ pose_weights 是通过

pose_weights = get_poseweights(poses, batch_size)

计算得到的。具体分析看 3.2.3的get_poseweights函数的介绍.

⚫ v_posed 是 <3D Hand Shape and Pose from Images in the wild, CVPR2019>的公式 2的 $T (β, θ)$ , 也是 MANO2017的公式 2:
在这里插入图片描述

⚫ J_posed 是 SMPL2015的公式 10 其作用是将 vertices变为 joints。([bs, 16, 3])
在这里插入图片描述

在这里插入图片描述
③ 第3步是计算 results_global, 和 T, v.

⚫ 从J_posed (bs, 16, 3)变为J_posed_split(16, bs, 3). 即这里的处理逻辑是按手指的节点去处理, 而非batch-wise维度的。

⚫ 同理，有从poses得到的poses_split, 再由poses_split得到angle_matrix.

⚫ results_global是根据 kinematic tree来计算的. 每个当前节点的joint location是根据其父节点以及当前节点的旋转矩阵进行矩阵相乘得到的.

results_global也是16个手指节点的 3D xyz. [(bs ,4, 4), (bs, 4, 4), … , (bs ,4, 4)].
在这里插入图片描述
注意，父节点只是当前节点的上面一个节点，而非根节点哦~。之前有图解释过这个问题.

⚫ T是根据前面的results和weights相乘得到的，这里的 weights是蒙皮blend weights $W$ .
在这里插入图片描述

⚫ V是经过蒙皮处理后的最终变形节点, Jtr是最终的手部节点 3D位置的集合，需要注意的是，**指尖(TIP骨骼)**的5个joint的位置是根据 V得到的.
而且，
V和 Jtr是要再旋转 (根据root节点的旋转角)一下输出的才是最终正确结果.
在这里插入图片描述

④ 最后一步，要从标准的MANO模型里，取TIP骨骼的joint的位置，
这个取法需要手动的去MANO模型里看顶点，以大拇指为例，这里取得是745号顶点：
在这里插入图片描述
然后，就把顶点v和节点Jtr都根据root节点(手腕)的旋转矩阵进行旋转。

最后的最后，为了得到局部坐标系的3D坐标(root-relative)，我们进行的处理是以节点5为(0, 0, 0)，所以，把V和 Jtr都要减去5号节点的位置。

在这里插入图片描述

4. 总结

根据上面的分析，我们最终得到了每个手部图像对应的21个关键点的3Dxyz（root-relative）和扭转后的所有778个顶点(MANO的手部模型有778个顶点)。

有任何问题欢迎提问，交流~

参考文献

[1] MANO2017
[2] SMPL2015
[3] OlgaChernytska/3D-Hand-Pose-Estimation
[4] Frankmocap Facebook
[5] 《几何建模与处理基础》Geometry Modeling and Processing (GMP)
[6] HMR CVPR2018
[8] Minimal Hand CVPR2020
[9] hand-biomechanical-constraints (ECCV2020)
[10] 旋转矩阵（Rotation matrix）：旋转轴与旋转角 ( axis and angle )