前言

由于工作原因，要对视频目标检测做一些调研，最后想以文章的方式做一个总结，如果有说的不好的地方也请指出。本篇会介绍视频目标检测有哪些方法和相关论文，并比较了这些论文的效果。

一、视频目标检测是什么？

视频目标检测就是在视频的每一帧上做目标检测(目标定位+目标分类)。目前静态目标检测(object detection from still images)技术已经很成熟，但由于在视频中会出现质量较差的帧，比如可能会出现模糊，散焦，部分遮挡，罕见姿势等。这导致不能直接将静态目标检测应用到视频目标检测中，因为效果并不太好。幸运的是，视频相对于静态图片有时序信息和上下文的信息。利用时序和上下文信息来提高检测准确率或在保证准确率的前提下加快检测速度是目前研究的两个大方向，并且大部分的研究还是聚焦在提高视频目标检测的准确率。接下来介绍视频目标检测有哪些实现方法。
视频目标检测挑战

二、视频目标检测方法分类

视频目标检测可分为以下六大类，分别为后处理方法、基于追踪方法、循环神经网络方法，特征传播方法，基于光流的多帧特征聚合方法，不基于光流的特征聚合方法。(其实还有3D卷积方法，但这个效果并不好，所以这里也就不讲了)。
ps: 以下说的最高都是以表格来说话的，不包括所有文章(文章太多了QAQ)

baseline是在视频上应用静态目标检测器的效果。mAP最高可以达到76.7%。(这点存疑，应该没有那么高)。

后处理方法即在静态目标检测器后加后处理步骤，mAP最高可以达到80.9%。之后会介绍三种算法Seq-NMS, Seq-Bbox Matching及T-CNN(表格中没有列出)。详解点我

基于追踪算法(Tracking-based)mAP最高可以达到83.5%，之后也会讲这篇文章。详解点我

循环神经网络算法(Recurrent)mAP最高可达59.1，但速度极快。在pixel 3手机上可达72.3 FPS(帧每秒)，之后也会讲这篇文章。

光流传播方法(Feature Propagation Methods)和基于光流的特征聚合方法(Multi-frame Feature Aggregation OpticalFlow)我是把它当做一种方法，因为他们都是基于光流的方法。这种方法mAP最高可达84.2，但SELSA没怎么看懂，所以这个方法会介绍FGFA算法，最高可以达到80.1，由于这种方法要不断计算光流，所以也比较慢。

光流传播方法(Feature Propagation Methods)和基于光流的特征聚合方法(Multi-frame Feature Aggregation OpticalFlow)我是把它当做一种方法，因为他们都是基于光流的方法。这里的特征聚合意思就是怎么把其他帧的信息融合到当前帧。这种方法mAP最高可达84.2，但SELSA没怎么看懂，所以这个方法会介绍FGFA算法，最高可以达到80.1，由于这种方法要不断计算光流，所以也比较慢。

不基于光流的特征聚合方法(Multi-frame Feature Aggregation without OpticalFlow)最好可达85.5，这里作者大大已经写得很清楚啦，可以移步看这篇分享MEGA for video object detection

视频目标检测方法对比
参考链接：
视频目标检测算法总结
 视频目标检测算法总结-翻译

视频目标检测入门介绍

视频目标检测

前言

一、视频目标检测是什么？

二、视频目标检测方法分类

猜你喜欢