Detect-and-Track论文:笔记

【题目】:《检测-追踪:视频中有效的姿势估计》

【批注】:

这篇CVPR-2018文章算是进复旦/博立的文章阅读首秀吧,一开始以为毕设是要做姿势估计,但是最后做的是MTMC。论文里使用的方法是扩展后的Mask R-CNN,也正是因为这篇文章,才去学习的Detector家族。在未来的研究生涯中具有开天辟地的意义。啊对了,本科毕设还要翻译英文文献,自己翻译的就是这篇,我的妈啊当时翻译了两个星期。(文章涉及到的东西还是很多的)

 

【针对问题】:

针对视频中的复杂多人体关键点追踪问题。(PoseTrack数据集)
           现存的视频姿势分析都是基于手工图模型和帧级别优化的实时方法,都需要对约束条件进行手工设定,不能连接多帧信息。

 

【主要创新】:

整体方法是基于Two-Stage,首先用3D人体姿势预测器检测关键点,然后再用轻量级的优化器去连接这些点。

★ 跨帧的时空姿势估计:
      # 1.主干网络用3D ResNet,初始化方法用均值和中心。
      # 2.将RPN扩展为TPN,对anchor进行cls/reg分析。
      # 3.对RoIAlign进行扩展,提取时空特征。后cls头和point头分别产生类别信息和热图。

★ 链接关键点成为轨迹:
      # 将其视为双向匹配问题,每个人都是一个节点,用Hungarian和Greedy算法完成。距离Metric方式有很多:DL特征、BBox IoU、姿势PCKh、LSTM。

【实验方法】

这个实验策略666,先在PoseTrack Benchmark上进行Baseline实验,这个实验结果排名第一,然后再在Baseline上放自己的设计。真的是把别人的方法按在地上摩擦~

★ Baseline实验
      # 1.对检测结果的阈值进行改变,观测关键点mAP和MOTA;
      # 2.将Mask R-CNN的backbone网络变深,最终采用ResNet-101+FPN;
      # 3.双向匹配问题对Hungarian和Greedy算法进行对比,采用IoU度量;
      # 4.对追踪损失准则选定进行了实验:DL特征、BBox IoU、姿势PCKh、LSTM,最终为了简便和鲁棒性,选择IoU。
      # 5.上限实验:给定所有的“正确联合”或“正确关键点”,分别看对结果的影响,再对比联合的结果。发现好的姿势估计影响很大。
      # 6.当前最优对比:数据集最近发布,先跟现存的方法对比;
      # 7.运行时间对比:根基于IP的方法对比,速度提升了200多倍;

★ 3D Mask R-CNN实验
      前面balabala讲一堆全都是Baseline,现在才切入正题。考虑到计算量,backbone换成了ResNet-18,与2D的Baseline结果进行了对比,最后显示center中心初始化方案较好。

 

发布了50 篇原创文章 · 获赞 59 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_36342854/article/details/95213878