A HAND POSE TRACKING BENCHMARK FROM STEREO MATCHING

摘要

在本文中，我们建立了一个长期的3D手势跟踪基准。它包含18,000个立体图像对以及来自不同场景的手掌和手指关节的地面真实3D位置。同时，为了准确地从立体图像中分割手部，我们提出了一种新颖的基于立体的手部分割和深度估计算法，专门用于手部跟踪。实验证明其跟踪性能通过在各种具有挑战性的情况下与使用深度传感器相当，表明了所提出的算法的有效性。

1 介绍

基于视觉的手姿势跟踪可以应用于包括人机交互系统在内的一系列场景。文献调查已在[1]中提出。具有挑战性的困难包括高维铰接结构，严重的自闭塞和色度均匀的外观，这可以通过包含深度信息来解决。估计深度的传统方式来自有源深度传感器或无源立体声。但是，有源传感器可能会受到其他有源光源（如太阳或其他有源传感器）的干扰。此外，有源传感器具有相对高的功耗并且不适用于移动设备。或者，可以从无源传感器获得深度。但它很慢并且深度估计是有噪声的和不稳定的，尤其是当场景缺乏纹理时。
目前，利用有源深度传感器捕获现有的手部跟踪数据集[2-7]。在本文中，我们使用从被动立体声获得的深度信息来解决手姿势跟踪问题。为了评估用于手姿势跟踪的无源立体声的性能，提出了一种新的基准。该数据集由Point Grey Bumblebee2立体相机和Intel Real Sense F200有源深度相机同时捕捉。我们在深度图像中手动标记手指关节和手掌中心的位置。我们的基准测试包含六种不同难度级别的环境，用于手部分割和差距估计。存在自遮挡或全局旋转时很难跟踪手部姿势，因此我们在有和没有这两个跟踪困难的情况下捕获每个环境的两个序列。因此，我们的基准测试有12种不同的序列，每个序列包含1500个立体对和深度图像。
在执行跟踪之前，应该预先对手区域进行分段。主动深度传感器可以提供精确的深度信息，这简化了手部分割。然而，使用被动立体声的不准确深度难以分割手部。我们使用有效的基于颜色的皮肤检测方法[8]进行手部分割，并发现在无约束环境（例如，不同的照明条件和背景）下发生的限制。为了适应不同的环境，我们在跟踪之前挥动手来捕获在线训练序列。然后使用自适应高斯混合模型（GMM）[9,10]来执行前景/背景分割，并将前景视为肤色。然后可以计算皮肤和非皮肤直方图模型，并且我们使用皮肤颜色概率进行手部分割。
有很多立体匹配方法[11-14]。然而，它们的性能比有源传感器更不稳定并且有噪声。我们在这里提出了一种新的手部跟踪立体算法。为了实现手部跟踪的实时性能，所提出的立体声基于有效的传统局部立体匹配[15]。肤色概率用作引导图像滤波器[16]，用于匹配成本聚合以增加无纹理区域周围的鲁棒性。由于一些背景区域可能具有与皮肤相似的颜色并且具有高皮肤概率，因此通过使用基于颜色的手部分割和来自立体匹配的深度的置信度组合来提出鲁棒的手部分割方法。实验表明，所提出的立体方法提高了跟踪性能。
为了评估立体声序列的手部跟踪，我们实现了两种手姿势跟踪方法[3,17]。实验表明，使用所提出的立体匹配的跟踪可以实现与主动深度相机相当的性能。
本文的贡献是：

具有18000个立体图像对的手势基准；
强大的立体匹配，专为3D手势跟踪而设计，与主动深度传感器的性能相当。

2 基于立体定位的手追踪基准

如图1所示，所提出的基准包含具有6个环境的序列，以评估基于立体的手势跟踪。室内环境通常无纹理，这显着增加了被动立体声的难度。对于立体匹配和肤色建模，高光（B3）和阴影（B4，B5）也非常具有挑战性。除了静态背景，我们还捕获3个具有动态背景的序列，包括PowerPoint演示（B4），视频播放（B5）和人行走（B6）。

图1.基准测试中的六种不同环境。
由于自遮挡和全局旋转是手部跟踪中的两个主要挑战，因此我们针对具有两种不同姿势的每个环境捕获两个序列，如图2所示。从图2（a）-（d）可以看出，人们用缓慢移动的手指捕捉简单的计数姿势。对于手姿势跟踪，另一个应该更加困难。手/手指随着严重的自闭塞和全局旋转随机移动，如图2（e）-（h）所示。计数和随机姿势被设计为在所有6个环境中相似，以确保公平比较。

图2.基准测试中两种不同类型的手部姿势。（a）-（d）是简单的计数姿势。（e）-（h）是随机的困难姿势。
为了进行定量比较，我们同时从Point Grey Bumblebee2立体相机和Intel Real Sense F200主动深度相机捕捉立体和深度图像。预先执行相机校准[18]以获得相机的参数。我们在深度图像中手动标记手指关节和手掌中心的地面实况位置。我们的基准测试总共有12个序列，每个序列包含1500个帧。

3 基于立体定位的手部跟踪

本节介绍了所提出的基于立体的手姿势跟踪方法的细节。该框架总结在图3中。

图3.所提出的基于立体的3D手姿势跟踪方法的框架。

3.1 基于手部建模的训练

如上所述，应在跟踪之前执行分段。与主动深度相机采用的分割方法不同，很难从被动立体声获得准确的深度。从颜色分割手很困难。一些背景颜色可能与皮肤相似。此外，在不同的光照条件下，肤色也可能不同。很难构建适用于所有场景的通用颜色模型。
为了解决这些问题，提出了一种基于在线训练的肤色检测器。在跟踪之前捕获训练序列。自适应GMM[9,10]是一种实时背景建模方法，用于从背景中分割前景手。手应该在训练序列中挥动（持续几秒钟），以确保它被检测为前景。
在前景分割之后，假设前景对象是具有特定肤色的手。计算手 $H^h$ 的颜色直方图和训练视频序列中所有图像 $H^i$ 的直方图。然后皮肤颜色概率是

P^{s} (c) = H^{h} (c) / H^{i} (c) (1)

$P^s(c) = H^h(c)/H^i(c)\qquad (1)$
其中c代表候选颜色。
图4（b）-（c）比较了[19]的肤色概率

P^{s} (c)

$P^s(c)$ 和提出的训练方法。与所提出的方法不同，[19]中的通用肤色模型由来自因特网的大量图像训练。图4（b）-（c）表明，所提出的模型可以更好地将皮肤区域与其他对象分开。这仅仅是因为[19]中的通用肤色模型是从大量图像中训练出来的，因此它将更多的颜色视为皮肤（例如，B2，B3和B6）。然而，对于特定场景，肤色通常仅占据颜色空间中的小区域。此外，通用肤色模型[19]在B4等黑暗环境中提供不满意的皮肤检测结果。可能是因为这种类型的照明条件很少出现在其训练数据集中。因此，[19]为阴影（手上）分配了非常低的皮肤概率。所提出的手检测器比[19]更健壮，主要是因为针对每个单独的场景训练了特定的肤色模型。图4（b）中的B5表明，所提方法的手概率在背景中相对较高，因为其背景也具有快速运动物体，自适应GMM将它们视为前景。然而，这个问题可以通过考虑来自所提出的立体声的深度信息来解决，如图4（e）（g）（h）所示。详情将在以下小节中介绍。

图4.提议的手部跟踪框架的中间结果。

3.2 约束立体匹配

传统的立体匹配算法不会在要捕获的场景上做出任何特定的假设。它在纹理/合成场景上表现良好，如图4（d）的第一行所示。然而，在现实世界的室内环境中，其性能可能会急剧下降，其中大多数物体包含大的无纹理区域，如图4（d）中的最后两行所示。
现有立体算法的性能取决于足够的纹理。然而，手边的区域对于立体匹配来说相对平滑。同时，手与背景之间的界限尚不清楚。这两个因素都阻止了现有的立体匹配算法寻求准确的对应关系。另一方面，准确的手部分割对于手部跟踪很重要。因此，所提出的立体算法仅需要保持（i）手的深度精度和（ii）手与背景物体之间的清晰深度差异。
在这里，我们提出了一种专为手部追踪而设计的立体声匹配。由于视角，低纹理和照明变化，难以基于立体图像对估计一些区域中的准确深度。我们将这些区域分类为遮挡像素和不稳定像素。被遮挡的像素仅出现在立体对的一个视图（左或右）中，就像手边缘附近的背景部分一样。使用左右一致性检查来检测这些像素。同时，基于匹配成本置信度检测不稳定像素（由于缺乏纹理，镜面反射等）[20]。
在我们的算法中，我们将d表示为深度/视差候选，在像素p处的新匹配成本 $N_p$ 排除了遮挡的贡献，计算如下：

N_{p} (d) = {\begin{cases} 0 & if p 被遮挡 \\ M_{p} (d) & 其他 \end{cases} (2)

$N_p(d)= \begin{cases} 0 &\text{if } p \text{被遮挡} \\ M_p(d) &\text{其他} \end{cases}\qquad (2)$
其中

M_{p}

$M_p$ 表示来自Census变换的像素p处的原始匹配成本[21]。从第3.1节中提出的模型估计的皮肤概率

P^{s} (c)

$P^s(c)$ 代替参考彩色图像，用作新匹配成本的成本聚合的指导图像，并且让

N_{p}^{F}

$N^F_p$ 表示由过滤器引导的p处聚合成本[16]。如图4（c）所示，大多数非皮肤区域非常暗，因此引导图像滤波器内核在这些区域周围非常大。因此，相应的汇总成本值在这些区域内非常稳定。设

D_{p}^{N}

$D_p^N$ 表示通过赢家通吃从

N_{p}^{F}

$N^F_p$ 获得的深度。由于采用了大的滤芯，

D_{p}^{N}

$D_p^N$ 通常在非皮肤区域周围过度平滑。然而，非皮肤区域的深度精度要求低。
另外，

D_{p}^{N}

$D_p^N$ 是中间深度估计，但不是最终结果。它仅用于调整原始匹配成本：

M_{p}^{'} (d) \leftarrow {\begin{cases} α | d - D_{p}^{N} | & p 被遮挡 \\ M_{p} (d) + β | d - D_{p}^{N} | & p 不稳定 \\ M_{p} (d) & 其他 \end{cases} (3)

$M'_p(d)\gets\begin{cases} \alpha|d-D^N_p| & p\text{被遮挡} \\ M_p(d)+\beta|d-D^N_p| & p\text{不稳定} \\ M_p(d) & \text{其他} \end{cases}\qquad (3)$

M_{p}

$M_p$ 是原始匹配成本，

M_{p}^{'}

$M'_p$ 是调整后的成本。α和β是分别确定中间深度

D_{p}^{N}

$D_p^N$ 对被遮挡和其他不稳定像素的贡献的两个常数。
还使用引导图像滤波器对新的匹配成本进行滤波，其中参考颜色作为计算图4（e）中的最终深度/视差图的指导。注意，图4（d）中估计的大部分噪声深度从图4（e）中移除，尽管背景深度略微过于平滑。然而，手区域上的深度精度得到了很好的保留，因为当对

N_{p}

$N_p$ 执行成本聚合并且手区域内的像素大部分是稳定像素时，滤波器内核相对较小。
虽然像Meshstereo[14]这样的最先进的立体声方法也可能在图4（f）中产生“干净”的背景，但是它非常慢并且手区域周围的性能明显低于所提出的方法。

3.3 手分割

在本文中，如果像素位于手区域内，如果其肤色概率 $P^s(c)$ 高并且其深度d接近前一帧中的手深度。在这种假设下，每个像素的手概率可以定义为

P^{h} (c, d) = P^{s} (c) N (d; μ_{d}, σ_{d}) (4)

$P^h(c,d)=P^s(c)N(d;\mu_d,\sigma_d)\qquad (4)$
其中

N (d; μ_{d}, σ_{d})

$N(d;\mu_d,\sigma_d)$ 是高斯分布。平均

μ_{d}

$\mu_d$ 是前一帧中的平均手深度，并且在所有进行的实验中标准偏差

σ_{d}

$\sigma_d$ 固定为150mm。最后，如果

P^{h} (c, d) > 0.1

$P^h(c,d)>0.1$ ，我们假设像素在手区域内。
一些具有差异的手部分割结果如图4（h）所示。当背景高度纹理化（例如，B1）时，来自传统立体声的视差足够准确。然而，由于缺乏纹理，在B6上应用传统立体声会导致背景中的许多视差噪声。在第3.2节中提出的约束立体匹配算法可以在背景区域中获得全局平滑（尽管可能不是非常准确）的视差估计，因此在手分割中非常有用。对于像B5这样的特定背景，尽管经过训练的肤色模型还不够好，但仍然可以进行准确的手部分割借助于所提出的立体匹配算法的视差估计来获得。

4 实验

本节介绍使用所提出的被动立体声系统和其他配置的手部跟踪（PSO [17]和ICPPSO [3]）的定量比较。在所有实验中，我们将所提出的约束立体声的超参数α和β设置为2和0.5。实验结果表明，所提出的立体声可以实现与主动深度相机相当的跟踪性能。在图5中绘制了在不同环境中具有小于阈值的最大误差的所有关节的平均百分比，包括简单计数和难的随机姿势。绿色和红色曲线来自提出的立体声和英特尔F200主动深度相机。在所有图中，它们彼此接近，这意味着无源立体声适用于手势跟踪，其性能可与主动深度相机相媲美。为了证明在所提出的立体声中基于手建模的训练和约束立体匹配的有效性，它们被通用GMM肤色模型[19]（棕色曲线）和传统立体声（用于匹配成本计算的Census变换和成本聚合的引导图像滤波器）所取代（黑色曲线）。根据图5，跟踪性能在不使用所提出的方法的情况下下降。请参阅补充材料以获取视觉跟踪结果。

图5.在六种不同环境下最大误差小于x mm的所有关节的平均百分比。

5 结论

在本文中，我们开发了一个评估被动立体声手姿态跟踪的基准。与现有基准测试不同，它包含来自双目立体相机的立体图像和来自主动深度相机的深度图像。它共有12个视频序列，每个序列有1500帧。提出了一种专为手部跟踪而设计的基于立体的手部分割算法，用于估计精确的手部深度，并证明其性能可与不同场景下的主动深度相机相媲美。