姿态估计相比Mask-RCNN提高8.2%,上海交大卢策吾团队开源AlphaPose

由上海交通大学卢策吾团队发布的开源系统AlphaPose近日上线,该开源系统在标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%。Mask-RCNN是2017年以来计算机视觉领域的一个突破,获得了ICCV 2017最佳论文(马尔奖),涵盖了物体检测,分割,姿态估计。该系统比较的是其姿态估计部分。该系统是基于卢策吾团队ICCV 2017发表的RMPE算法[1]开发。以下为具体数据:

开源系统

检测准确率

Ours (ICCV 2017) [1]

72.5 mAP

Mask-RCNN [2]

67 mAP (相对提高8.2%)

OpenPose [3]

61.8 mAP (相对提高17.3%)

表格1:现有姿态估计开源系统在COCO数据集[4]上的结果比较。

人体关键点检测对于描述人体姿态,预测人体行为至关重要。因此人体关键点检测是诸多计算机视觉任务的基础。其在动作分类,异常行为检测,以及人机交互等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。针对这一问题,上海交大MVIG组提出RMPE的两步法框架(ICCV 2017论文),并基于此开发了AlphaPose这一人体关键点检测系统。

RMPE框架采用自顶向下的方法,先检测人,再去做姿态估计。该框架有三个主要组成部分,首先是对称空间变换网络(Symmetric STN),用于解决传统两步法中的主要问题,即imperfect proposal的问题。对于质量较差的人体检测结果,symmetric STN能够自动调整proposal的位置,将refine过后的结果输入单人姿态估计网络,并将输出映射回原空间,从而使得在人体检测框不准确的情况下,姿态估计网络依然能够有良好的效果。

第二个组成部件为由姿态引导的样本生成器(Pose-guided Proposals Generator),该部件能够根据不同人体姿态生成额外的detection proposal用于训练姿态估计网络,从而获得大量符合真实测试场景数据分布的训练数据。

第三个组成部件为参数化的姿态非极大值抑制器(Parametric Pose NMS)。传统的两步法中,人体定位框会有较多的冗余检测。作者通过使用新的姿态距离度量来比较姿态相似性,来消除冗余姿态。

目前,该系统所有的训练和检测代码,以及模型均已开源,项目链接为:https://github.com/MVIG-SJTU/AlphaPose

应用一:视频姿态跟踪(Pose Tracking)

复杂场景下的多人人体姿态跟踪是2017年CVPR上刚提出的一个很有挑战性的研究课题,能从视频中高效且稳定地提取人体姿态轨迹,可以帮助我们更好地理解视频中人的行为以及人与周边环境的交互。针对这一问题,在前文AlphaPose的基础上,卢策吾团队提出了Pose Flow Building 以及Pose Flow NMS两个人体姿态跟踪模块,充分综合空间域和时间域的信息来提升复杂场景下人体姿态跟踪的准确性[6]。

目前,该算法在PoseTrack dataset [7]的测试集上达到53.6 MOTA的跟踪精度,大幅度超过该数据集上最好结果(28.2 MOTA),而在PoseTrack Challenge dataset[8]的验证集上达到58.3 MOTA 66.5 mAP,跟踪精度超过Facebook最好结果55.2 MOTA (5.6个百分点),人体姿态估计精度超过Facebook之前的最好结果[9] 60.6 mAP (9.7个百分点)。更重要的是我们视频姿态跟踪器(pose tracker),是基于AlphaPose在每一帧上结果的一个扩展模块,该模块能达到100帧每秒。

论文及代码:http://mvig.sjtu.edu.cn/research/alphapose.html

应用二:视觉副词识别(Visual Adverb Recognition)

计算机视觉学科在努力挖掘图像视频中的语义信息,对应到自然语义系统,是名词识别对应object detection,动词识别对应action recognition。但我们忽略了一类重要语义-副词,这是相对于名词,动词有更为深刻的语义的描述。比如我们动作识别可以识别出一个视频中的人物在拥抱,但是不知道是离别的伤感还是重逢的喜悦。因此卢策吾团队推出了一个新的研究方向。而这一问题正是需要姿态估计(AlphaPose)的帮助,他们提出了一个Three-Stream Hybrid Model。三个 stream 分别是:利用了姿势(pose)信息的,使用表情信息, RGB 和光流信息。同时,他们构建了对应的数据集:ADHA,这一数据集标注了视频中人物的位置、动作和可以描述这一动作的副词,我们还为数据用户提供了人物的 tracking 结果。卢策吾团队也表示,目前该题目刚刚开始所以,准确率还是很低,需要做的事情还很多。

数据集中的32个动作及51个副词基本覆盖了人们表达中常见的描述。项目和数据集链接如下:

主页(包括代码):http://mvig.sjtu.edu.cn/research/adha.html

数据:http://mvig.sjtu.edu.cn/research/adha/adha.html

猜你喜欢

转载自blog.csdn.net/zchang81/article/details/79259772