DetectAndTrack

摘要：

本文讨论了估计和跟踪的问题在复杂的多人视频中，人体的关键点。我们提出了一种非常轻量级但非常有效的方法，建立在人类最新进步的基础上检测[17]和视频理解[5]。我们的方法操作在两个阶段:关键点估计在帧或短然后是轻量跟踪，生成关键点预测贯穿整个视频。对于框架水准姿态估计，我们实验与MASK R-CNN，以及我们自己提出的这个模型的3D扩展，哪个杠杆-年龄暂时信息在小片段产生更多健壮的帧的预测。我们进行广泛的烧蚀前处理这是最新发布的多人视频姿势评估基准，泊瑟轨迹，以验证各种设计模型的选择。我们的方法达到了精确度在验证中为55.2%，在测试集中为51.8%多目标跟踪精度(MOTA)度量在ICCV2017年获得最佳艺术表现泊瑟道关键点跟踪挑战[1]。

1 介绍

近年来，视觉理解，如物体和场景识别[17,40,44,55]，已经见证了一个重要的过程爆发，得益于深度视觉表现[18,31,47,50]。在图像中建模和理解人类行为由于它的i重要一直处于各种视觉任务的中心可用于众多下游实际应用。在特别地，人检测和姿态估计从一个单一的图像已经成为一种突出的、具有挑战性的视觉识别问题[36]。虽然幅图片理解通过引入任务稳步前进随着复杂性的增加，与图像域相比，对视频的理解也越来越复杂进度较慢。在这里,最突出的任务是给整个视频贴上一个标签活动类型[5,7,10,14,29,30,32,46,49,51,52]。同时还相关的和具有挑战性的，这个任务转移了注意力，视频理解中一个更有趣的方面，即对外观和语义的变化进行建模随着时间的推移，场景、物体和人类的变化[6,13,15,37]。

在这项工作中，我们关注的是人类的姿势追踪在复杂的视频跟踪，这需要跟踪和估计计时每个人类实例的姿态随时间的推移。的这里的挑战很多，包括改变姿势，遮挡，存在多个重叠实例。理想的跟踪器需要准确地预测所有的姿态人类实例在每一步的推理随着时间的推移，外观和姿势会发生变化。因此, 努力要实现一个姿态跟踪应该密切跟踪状态在姿态预测的艺术，但也加强它与工具成功整合时间信息的必要条件特定的水平。

大多数最新的视频姿态估计方法使用手动设计图形模型或整数程序优化在基于框架的关键点预测之上计算fi-nal随时间的预测[21,26,48]。尽管这种方法有显示好的性能，他们需要手工编码吗优化约束，可能无法扩展短视频剪辑由于其计算复杂性。最重要的是,跟踪优化只是responsi-用于连接帧级预测，系统有没有机制提高关键点的估计

利用时间信息(除了[48]，尽管它是)仅限于单人视频的情况)。这意味着如果一个关键点在给定的框架中定位不佳，例如，due对于部分遮挡或运动模糊，预测不能尽管相关的，可能不那么模糊，在相邻帧中手边有信息。为了解决对于这种局限性，我们提出了一种简单有效的方法哪一种姿势充分利用了目前的艺术方法预测[17]，并通过对时间in-的积分来扩展它用一种新颖的方法从相邻的视频帧中形成3dCNN架构。值得注意的是，这个architec-ture保持了我们两阶段程序的简单性:关键点估计仍然在框架级执行将空时操作部署到一个滑动-中窗口的方式。这允许我们的3D模型传播前面和后面的有用信息为了在每一帧中做更多的预测健壮，同时使用轻量级模块进行长期跟踪使我们的方法适用于任意长的视频。图1说明了我们的方法。我们在挑战中训练和评估我们的方法PoseTrack数据集[24]，它包含了真实世界的视频人们在各种日常场景中，并附有注释人类关节的位置以及它们的身份指数在帧。首先，为了说服大家相信它的功效在我们的方法中，我们建立了一个竞争性的基线方法从蒙版获得的框架级预测有哪些联系R-CNN[17]，及时与一个简单的启发。我们的基地线条手法达到艺术表演的境界ICCV'17PoseTrackChallenge[1]，证明了它的性能在这个新数据集上有竞争力。然后我们提出一个3D扩展的面具R-CNN，它利用时间在-形成在短剪辑，以产生更强劲的预测在单独的帧。对于相同的基础架构和图像分辨率，我们提出的三维模型优于我们的非常强的2D基线在关键点地图上是2%，在关键点地图上是1%MOTA度量(关于度量的详细信息，见4.1小节)。在另外，我们最好的模型在a上运行2分钟100帧的视频，跟踪本身按照顺序运行具有很强的实用潜力。作为我们在第4。2节中讲过，这几乎是两个数量级比基于IP的[26]使用最先进的配方更快解决[16]。

猜你喜欢