Flow-Guided Feature Aggregation for Video Object Detection

论文:https://arxiv.org/pdf/1703.10025.pdf
代码:https://github.com/sunshinezhihuo/Flow-Guided-Feature-Aggregation
推荐:
https://blog.csdn.net/elaine_bao/article/details/78449724
https://blog.csdn.net/zhangjunhit/article/details/76684849


Abstract
把目标检测器从图像扩展到视频是由挑战性的:motion blur, video defocus, rare poses(这些在still images中很少见到)。现有的工作尝试着在box level上利用时间信息,但是这些方法不能端到端的训练。本文为视频目标检测提供了一种以流为导向的特征聚合框架,可进行端到端的学习。It improves the per-frame features by aggregation of nearby features along the motion paths, and thus improves the video recognition accuracy.该方法对快速运动的物体效果显著。
本文方法名字叫做FGFA。


直接将用于静止图片的检测方法用于视频目标检测中是由挑战性的。
关于同一个物体,视频拥有着丰富的信息。在现存的一些视频目标检测方法中,时间信息被以一种简单的方式进行挖掘。这些方法首先在单个帧中应用对象检测器,然后在一个专用的后处理步骤中在时间维度上聚集检测到的边界框。这一步依赖于现成的运动估计(如光流),以及手工制定的边界框关联规则(如对象跟踪)。但是这类方法不能提高检测质量,The performance improvement is from heuristic post-processing instead of principled learning。==》 box level methods

本文通过时间聚合的方式改善每帧的特征学习。注意,由于视频运动,同一对象实例的特性通常不会跨帧进行空间对齐。朴素的特征聚合或许会降低性能,所以在学习的过程中进行运动建模是很关键的。
提出了FGFA:流指导下的特征聚合。
这里写图片描述
因为本文方法旨在提供特征质量,所以可以作为补充,用于现存的box-level framework中。

猜你喜欢

转载自blog.csdn.net/sunshinezhihuo/article/details/80522093