Detect-and-Track论文：笔记

【题目】：《检测-追踪：视频中有效的姿势估计》

【批注】：

这篇CVPR-2018文章算是进复旦/博立的文章阅读首秀吧，一开始以为毕设是要做姿势估计，但是最后做的是MTMC。论文里使用的方法是扩展后的Mask R-CNN，也正是因为这篇文章，才去学习的Detector家族。在未来的研究生涯中具有开天辟地的意义。啊对了，本科毕设还要翻译英文文献，自己翻译的就是这篇，我的妈啊当时翻译了两个星期。（文章涉及到的东西还是很多的）

【针对问题】：

针对视频中的复杂多人体关键点追踪问题。（PoseTrack数据集）
现存的视频姿势分析都是基于手工图模型和帧级别优化的实时方法，都需要对约束条件进行手工设定，不能连接多帧信息。

【主要创新】：

整体方法是基于Two-Stage，首先用3D人体姿势预测器检测关键点，然后再用轻量级的优化器去连接这些点。

★ 跨帧的时空姿势估计：
# 1.主干网络用3D ResNet，初始化方法用均值和中心。
# 2.将RPN扩展为TPN，对anchor进行cls/reg分析。
# 3.对RoIAlign进行扩展，提取时空特征。后cls头和point头分别产生类别信息和热图。

★ 链接关键点成为轨迹：
# 将其视为双向匹配问题，每个人都是一个节点，用Hungarian和Greedy算法完成。距离Metric方式有很多：DL特征、BBox IoU、姿势PCKh、LSTM。

【实验方法】

这个实验策略666，先在PoseTrack Benchmark上进行Baseline实验，这个实验结果排名第一，然后再在Baseline上放自己的设计。真的是把别人的方法按在地上摩擦~

★ Baseline实验
# 1.对检测结果的阈值进行改变，观测关键点mAP和MOTA；
# 2.将Mask R-CNN的backbone网络变深，最终采用ResNet-101+FPN；
# 3.双向匹配问题对Hungarian和Greedy算法进行对比，采用IoU度量；
# 4.对追踪损失准则选定进行了实验：DL特征、BBox IoU、姿势PCKh、LSTM，最终为了简便和鲁棒性，选择IoU。
# 5.上限实验：给定所有的“正确联合”或“正确关键点”，分别看对结果的影响，再对比联合的结果。发现好的姿势估计影响很大。
# 6.当前最优对比：数据集最近发布，先跟现存的方法对比；
# 7.运行时间对比：根基于IP的方法对比，速度提升了200多倍；

★ 3D Mask R-CNN实验
前面balabala讲一堆全都是Baseline，现在才切入正题。考虑到计算量，backbone换成了ResNet-18，与2D的Baseline结果进行了对比，最后显示center中心初始化方案较好。

超级无敌小小顺利

发布了50 篇原创文章 · 获赞 59 · 访问量 3万+

私信关注

Detect-and-Track论文：笔记

猜你喜欢