以下是我在2018年7月份找工作时，根据个人所学总结出的目标检测 (Detection) 算法综述。
其中，仅仅挑出我认为比较重要的一系列算法，按照时间顺序进行简要概述。

如有阐述不对的地方，恳请指出。

R-CNN

时间

2013

意义

鼻祖级CNN detector;
真正实现了“将检测任务转换为分类任务”;
检测算法的主流由传统模型转为CNN模型;
CVPR2014。

创新点

解决了两大问题：

如何定位；
如何在缺少检测专用数据集的情况下实现检测任务。

解决方案

采用对region proposal进行定位回归，并设计了encode/decode机制；
在ImageNet上预训练，移到VOC上进行fine-tune。2. 在ImageNet上预训练，移到VOC上进行fine-tune。

缺点

对每个RP均走了一遍特征抽取，太低效。

基础网络

AlexNet。

思考

尽管R-CNN是划时代的，但在它身上也能看到很多前人(如OverFeat)的智慧。

SPPNet

时间

2014

意义

共享特征抽取，SPP layer；
ECCV2014。

创新点

共享特征抽取：使得特征抽取不再成为时间瓶颈，几个月后的Fast R-CNN正是吸收了这部分的核心精华并进行了进一步分改进；
SPP layer：对proposal进行pooling，使得检测网络可以输入任意size的图片。因为从输入图片到fc之间契入了对proposal的pooling，使得fc的存在也无法写死输入图片的size。

缺点

pooling后得到的一根根tensor并没有按先前的位置关系排成阵列，而是直接头尾相接，丢弃了重要的位置信息，不利于对proposal的分类(Fast R-CNN提出的RoIPooling改进了这点)。

基础网络

AlexNet。

思考

SPPNet是一个被人忽视的杰出贡献。

Fast R-CNN

时间

2015

意义

4-stage -> 2-stage；
RoIPooling；
ICCV2015。

创新点

通过将三个任务(特征抽取、分类、回归)整合到一个CNN里，检测算法从4-stage进入了2-stage时代；
RoIPooling：简化和修正了SPP layer的设计，更好地保留了位置信息；
提出了mini-batch=2的认知，成为共识；
回归loss：L2 -> Smooth L1。

结构

后半段：2个共享的fc，接着两个平行的单fc，分别负责分类和回归。

基础网络

VGG-16。

Faster R-CNN

时间

2015

意义

SS -> RPN+anchor机制，第一个end-to-end detector；
NIPS2015；
COCO2015 1st。

创新点

RPN+anchor机制：用RPN替换下SS，使得“生成RP”这个task也能享受到GPU的利好。每张图片生成的RP数量不变，但效率从0.5fps跃升到了100fps。RPN本质是“基于滑窗的二分类检测器”，额外开销只有一个两层的网络。
新的target机制。

缺点

只用到了顶层的feature map (在FPN中被修正)。

基础网络

ZFNet或VGGNet。

细节

一共四个loss，RPN占两个、detector子网络占两个。

思考

Faster R-CNN将Fast R-CNN中的“网络化”趋势做到了极致，实现了“All in one network”。此后所有two-stage方法无不为其变种。

YOLOv1

时间

2015

意义

第一个1-stage detector；
第一个real-time detector；
CVPR2016。

创新点

不需要一个额外的stage来生成RP，而是直接分类回归出output；
每个grid只负责预测一个物体，这样自然将候选框数量大幅缩减到了S×S×B，有效缓解了类别不平衡。

优点

超级快：YOLOv1 45fps；Fast YOLOv1 155fps。

基础网络

GoogleNet。

思考

每个grid只负责一个物体，这种设计非常简单粗暴，明显带有先验信息。因为数据集中大部分图片都是常规图片，分布有秩，大小合理。但是对于小部分非常规图片(如两个以上物体的中心位置落入同一个grid)就只能漏检了。
由于YOLOv1只针对最后的7*7的特征图进行分析，使得它对小目标的检测效果不佳。
YOLOv1在检测速度和检测精度的两难抉择中选择了短平快的方式，突破了2-stage的格局限制，创造出1-stage。虽然精度不高，但使得real-time detector成为了现实，也指明了real-time detector的大方向。
YOLO系精度普遍不高，因此实际落地中，基本不使用YOLO系。甚至连对实时性要求极高的自动驾驶，用的也是FPN(+Faster R-CNN)那一套。

SSD

时间

2015

意义

multi-scale feature map;
ECCV2016。

创新点

第一个挖掘和利用了不同scale的feature map。从此，在多个scale的feature map上进行检测成为了共识。
Anchor是Faster R-CNN先提出的，却是SSD第一个进行了深入研究(包括anchor的数量、尺寸、长宽比)，后续的YOLOv2便是在此基础上更进一步。

基础网络

VGGNet。

思考

自称是第一个高精度的real-time detector，其实精度也没有多高；
后人在SSD的基础上加上了FPN，进化成了DSSD。

R-FCN

时间

2016

意义

第一个共享头部的子网络；
NIPS2016。

创新点

针对“不共享的proposal处理过程(即尾部的subnet)”，提出了位置敏感得分图，丢弃RoIPooling，检测网络的前半段和后半段被完整地连到了一起，形成一个全卷积网络。

优点

精度和Faster R-CNN相差无几，inference speed快了2~20倍。

缺点

头部太厚重，有 k×k×(C+1) 之厚，为Light-head R-CNN埋下伏笔。

YOLOv2

时间

2016

意义

第一个large-scale detector；
CVPR2017 Best Paper Mention。

创新点

一大堆的trick，并设计了自己的basemodel——DarkNet-19。
Large-scale：Softmax嵌套softmax，从而实现分级语法树。带有分级语法树的YOLOv2称为YOLO-9000。

缺点

虽然贵为第一个large-scale detector，但是由于精度不高，并不实用。后续的R-FCN-3000继承其思想并继续拓荒，在large-scale上取得了较高的精度。

FPN(+Faster R-CNN)

时间

2016

意义

解决小物体漏检；
CVPR2017。

创新点

设计出包含”top-down路径”和“横向连接”的module，来融合“缺少细节信息但多语义信息的顶层feature map”和”多细节信息但缺少语义信息的底层feature map”。

优点

FPN开销小，又能检测出小物体，因此成为了检测算法的标准组件。

缺点

顶层的feature map并没有享受到多少FPN的利好，依然是多语义信息但缺少位置信息，依然对检测大物体不利。(该问题为PAN的出现埋下了伏笔)

DSSD

时间

2017

意义

SSD+FPN。

思考

水文一篇。

Mask R-CNN

时间

2017

意义

RoIPooling -> RoIAlign；
加上第三个pipe-line用于实例分割；
ICCV2017 Best Paper。

DCN

时间

2017

意义

Deformable module(可行变模块)。

创新点

在传统的方正的卷积、RoIPooling的输出后面加上一层2-D offset，使得输出能够“自动形变”。逐层叠加“形变”，CNN就能更精准地读取目标的语义。

优点

设计简单、增加的参数量少、支持end-to-end训练、对各种复杂的视觉task都能general。

思考

一般只用于最后几层，因为后面的细节信息丢失较多，才需要形变操作来更好地刻画目标。
当大家趋之若鹜地压榨fm、head、proposal的剩余价值的时候，DCN另辟蹊径，对最基础的卷积计算方式开刀，insight很棒。

RetinaNet

时间

2017

意义

CE -> FL；
ICCV2017 Best Student Paper。

创新点

发现了1-stage系的精度输给2-stage系的根本原因是在anchor中占绝对大头bg导致了“类别不平衡”。而1-stage有RPN罩着，不受影响，1-stage却没有人罩着。于是设计了focal loss来罩着1-stage。

缺点

fp多。

思考

发现问题根源的意义远大于解决问题；
RetinaNet十分强大，成为了当下最佳的detector之一，也被广泛落地使用。

MegDet

时间

2017

意义

large-mini batch；
COCO2017 1st；
CVPR2018。

创新点

工程上的创新，真正实现了large-mini batch。

缺点

难以复现，除非你有128块GPU。

Light-head R-CNN

时间

2017

意义

投CVPR被拒。

创新点

将R-FCN的厚重头部压缩得非常薄，因此极大地提速。

思考

这么剧烈地压缩模型，性能居然不降反升，很反直觉。作者有没有给出一个很好的解释，所以投CVPR被拒。

SNIP

时间

2017

意义

Image Pyramid；
CVPR2018。

创新点

重新挖掘Image Pyramid的价值，并在此基础上加入了每层scale的有效生成范围。得益于此，三个pipe-line可以各司其事，扬长避短。v创新点】重新挖掘Image Pyramid的价值，并在此基础上加入了每层scale的有效生成范围。得益于此，三个pipe-line可以各司其事，扬长避短。

缺点

模型太大，1080ti的11G显存根本带不动，根本不实用。

思考

通过分配任务，大大降低了每个pipe-line的检测难度，从而“作弊式”地实现了“尺度不变性”。

Cascade R-CNN

时间

2017

意义

第一个级联detector的做法，2-stage -> 4-stage；
CVPR2018。

创新点

作者受人脸检测的启发，采用“级联引导”的方式，通过一轮轮的级联来提升box的定位质量。

思考

Faster R-CNN将检测算法从4-stage进化到了2-stage，而Cascade R-CNN又将2-stage发展回了4-stage，可以算是一种螺旋式上升吧；
第一个将级联思想引入目标检测。

R-FCN-3000

时间

2017

意义

第一个有效的large-scale detector。

创新点

按子类别进行回归 -> 按大类别进行回归。

PAN

时间

2018

意义

FPN -> PAN；
COCO2017 2nd。

YOLOv3

时间

2018

创新点

改善了YOLO系的一大痛病：小物体漏检。

DetNet

时间

2018

意义

第一个专为Detection定制的backbone；
ECCV2018。

创新点

将原本32倍的下采样，用两个16倍的卷积来替换，号称既可以通过叠加卷积实现感受野的扩张，又可以避免因为下采样所导致的位置信息的丢失。

思考

16年的YOLOv1早就这么做了，只不过没有拿出来大书特书。

JNingWei 博客专家

发布了599 篇原创文章 · 获赞 856 · 访问量 184万+

他的留言板关注