Social Grouping for Multi-Target Tracking and Head Pose Estimation in Video（翻译）

0 - ABSTRACT

　　许多计算机任务在缺少上下文信息的情况下的处理会更加困难。例如，在多相机跟踪任务下，行人可能在不同照相机下面因为有这不同的姿势和灯光条件而看起来很不一样。类似地，在低分辨率高角度监控视频中，头部方向评估也是一个挑战。如果没有上下文信息，人们在处理此类任务时会有很大麻烦。在我们的工作中，我们将上下文信息、社会群体信息和两个重要的计算机视觉任务：多目标跟踪和监控视频的头部姿态和方向评估进行结合。这三部分都采用一个概率公式进行建模并且我们提出了有效的解决方案。在多相机跟踪和头部姿势评估中，我们展示了社会群体信息有效地减少了视觉模糊。我们进一步意识到在单相机多目标跟踪中，社会群体信息提供了一个自然的高阶关联从而避免了现有的复杂的高阶轨迹关联算法。在实验过程中。我们展示了我们的模型比没有社会群体上下文信息的模型的改进，以及几种关于追踪、头部姿势评估以及群体发现的在公开有效的数据集上的先进方法。

1 - INTRODUCTION

　　对于许多计算机视觉任务，纯粹地使用视觉信息很难得到令人满意的效果，这是因为在现实世界中图像和视频固有的视觉模糊。以多相机追踪为例。特定的一个行人在多个相机下由于不同的条件而看起来很不一样。另一个例子是在高角度监控视频下的头部姿势评估。（在这种情况下我们主要研究偏航角估计。）人头图像通常来说是低分辨率的，这使得视觉感受是不可靠的（见于图1）。因此，上下文信息对于这些任务来说是必要的。

图1：（左图）社会群体行为不仅普遍存在与一个场景中，并且通常持续存在在广阔的区域中（有着相同的群体成员）。（右图）仅就头部图像而言，有时候人们很难在具有挑战性的场景中正确识别头部姿势的方向。社会环境为解决这类困难问题提供了强有力的支持。

　　我们介绍的社会群体信息是一类上下文信息。社会学研究显示，在自然环境中，70%的人会成群行走，它们的轨迹、速度和目的地是相似的。这些因素有助于消除在单相机（相似的轨迹和速度）和多相机追踪（相似的目的地）中令人困惑的追踪决策分歧。例如，在多相机追踪中，追踪器经常很难决定是去统一或者分离两个识别目标（即判断这两个识别目标是否是同一个），因为一个人在两个相机中通常看起来是很不一样的。然而，如果两个识别目标都有另一个相同的人陪同，那么将他们统一是首选的。直观清晰地规则是，如果是来自于一个群体中的人，他们头部的方向是相关联的，例如他们在看彼此又或者他们在看同一个地方。

　　在我们的工作中，我们提出了一个利用了社会群体信息的有效的概率框架用于视觉追踪和头部姿势评估。将追踪和社会群体的联合优化问题建模为约束非线性优化问题，这导致将部分涉及到标准快速程序(which results in steps involving standard fast procedures)。在群体中的头部姿势评估用条件随机场(CRF)建模为图形标注问题，这允许基于社会学研究的支持进行精确图学习和推理。我们的社会群体模型的通用性使得它适用于大多数现有的追踪连接和头部姿势识别框架。

　　我们的实验表明，社会上下文能够在现实世界数据集中帮助多目标追踪和头部姿势评估任务。特别感兴趣的，社会群体为单相机多目标追踪提供了一个自然的高阶关联，而当前存在的方法通常是依赖于复杂的解决方案去综合单阶间的关联(to go beyond single-order association)。更进一步，社会群体也是一整个系统的一个输出。我们的模型在基准数据集上得到的三个任务（追踪、头部姿势评估和社会群体发现）的结果比最先进的方法相近或者更好（见于表1），虽然我们的模型只应用了简单的运动和视觉特征。

　　本次工作的前期工作描述了社会群体与单相机和多相机追踪的关联。在本文中，我们也包含了头部姿势识别并且提出了一个统一观点。此外，我们还提供了更加全面的实验结果，包括了发现群体的性能评估。