Abstract

通用对象检测，旨在从自然图像中的大量预定义类别定位对象物体，是计算机视觉中最基本和最具挑战性的问题之一。近几年来，深度学习技术成为了直接从数据中学习特征表示的有力方法，并在通用对象检测领域取得了显着的突破。鉴于这个快速发展的时代，本文的目标是对深度学习技术带来的这一领域的最新成就进行全面的研究。本调查包括250多个关键贡献，涵盖了通用对象检测重新搜索的许多方面：领先的检测框架和基本子问题，包括对象特征表示，对象proposals生成，上下文信息建模和训练策略; 评估问题，特别是基准数据集，评估指标和最先进的性能。我们通过确定未来研究的有希望的方向来完成。

Keywords：物体检测·深度学习·卷积神经网络·物体识别

1.引言

作为计算机视觉中长期存在的，具有根本性和挑战性的问题，物体探测几十年来一直是一个活跃的研究领域。物体检测的目的是确定在某些给定图像中是否存在来自给定类别（例如人，汽车，自行车，狗和猫）的物体的任何实例，并且如果存在，则返回空间位置和外部每个对象实例（例如，通过边界框）。作为图像理解和计算机视觉的基石，物体检测构成了解决更复杂或更高级视觉任务的基础，例如分割，场景理解，对象跟踪，图像捕获，事件检测和活动识别。物体检测在人工智能和信息技术的许多领域具有广泛的应用，包括机器人视觉，消费电子，安全，自动驾驶，人机交互，基于内容的图像检索，智能视频监控和增强现实。

最近，深度学习技术已经出现了用于从数据自动学习特征表示的有力方法。特别是，这些技术为物体检测提供了显着的改进，这一问题在过去五年中引起了极大的关注，尽管它已被心理物理学家，神经科学家和工程师研究了数十年。对象检测可以分为两类：特定实例的检测和特定类别的检测。第一种类型旨在检测特定项目的实例（例如唐纳德特朗普的脸，五角大楼的建筑物），而第二种类型的目标是检测预定义对象类别的不同实例（例如人类），从历史上看，物体检测领域的大部分工作都集中在检测单个类别（如面孔和行人）或一些特定的类别。相比之下，在过去几年中，研究领域已经开始朝着建立一般目标物体检测系统的挑战性目标迈进，这些物体检测系统的物体检测能力的广度可与人类相媲美。然而在2012年，Krizhevsky等人。提出了一种名为Alex Net的DeepConvolutional神经网络（DCNN），它在大规模视觉识别挑战赛（ILSRVC）中实现了记录图像分类准确性。从那时起，研究焦点在许多计算机视觉应用领域已经深入学习。基于深度学习的许多方法在通用对象检测中如雨后春笋般涌现，并取得了巨大的进步，但我们在过去的五年中对这一主题进行了全面的调查。鉴于这个快速发展的时代，本文的重点特别是深度学习的通用对象检测，以便在通用对象检测中获得更清晰的全景。

通用对象检测问题本身定义如下：给定任意图像，确定是否存在来自预定义类别的语义对象的任何实例，并且如果存在，则返回空间位置和范围。对象指的是可以看到和触摸的物质。尽管通常对象类检测具有同义词，但通用对象检测更加强调旨在检测广泛范围的自然类别的方法，而不是对象实例或特定类别（例如，面部，行人或汽车）。

1.1 与先前的总结相比较

除了张等人的工作以外，最近的调查很少直接关注一般物体检测的问题。他们进行了关于对象类检测主题的调查。然而在其相关论文中大多是2012年之前的研究，这明显是在深度学习和相关方法取得更多成功之前。

深度学习允许由多个层次结构层组成的计算模型来学习极其复杂，微妙和抽象的表示。在过去几年中，深度学习在广泛的问题上取得了重大进展，如视觉识别，物体检测，语音识别，自然语言处理，医学图像分析，药物发现和基因组学。在不同类型的深度神经网络中，深度卷积神经网络（DCNN）在处理图像，视频，语音和音频方面带来了突破。

尽管已经提出了许多基于深度学习的方法用于物体检测，但我们并未看到过去五年中该主题的综合性研究，而这也是该研究的重点。对现有工作进行全面审查和总结对于物体检测的进一步发展至关重要，特别是对于希望进入该领域的研究人员而言。

1.2 分类方法

自深入学习以来发表的关于通用对象检测的论文数量令人叹为观止。事实上，如此多的人编写了对现有技术的综合评论，并提出了像这样的论文的可能性。有必要建立一些选择标准，例如，论文的完整性和对该领域的重要性。我们倾向于包括顶级的期刊、会议论文。由于空间和知识的限制，我们诚挚地向那些作品未包含在本文中的作者道歉。对于相关主题的调查，读者可参考表1中的文章。该调查主要关注过去五年取得的主要进展; 但是，为了完整性和更好的可读性，还包括一些早期的相关工作。我们将自己局限于静态图片，并将视频对象检测作为一个单独的主题。

本文的其余部分安排如下：

相关背景，包括问题，主要挑战和过去二十年取得的进展在第2节中进行了总结。

我们在第3节中描述了里程碑对象检测器。

第4节介绍了设计对象检测器所涉及的基本问题和相关问题。

流行数据库和最先进的性能总结在5中给出。

在第6节中讨论了几个有希望的方向。

2.背景

2.1 问题

通用对象检测（即，通用对象类别检测），也称为对象类检测或对象类别检测，定义如下：给定图像，通用对象检测的目标是确定是否存在来自许多预定义类别的对象的实例，并且如果存在，则返回每个实例的空间位置和范围。它强调重视检测广泛的自然类别，与特定对象类别检测相反，其中可能只存在较窄的预定义类别（例如，面部，行人或汽车）。虽然成千上万的物体占据了我们生活的视觉世界，但目前研究界对高度结构化物体（例如汽车，面孔，自行车和飞机）的定位以及铰接（例如，人，牛和其他人）非常感兴趣。而不是非结构化的场景（如草和云）。

通常，可以使用边界框粗略地定义对象的空间位置和范围，即，轴对齐的矩形紧密地界定对象，精确的像素分段掩模，或者封闭的边界，据我们所知，在目前的文献中，边界框更广泛地用于评估通用对象检测算法，并且将是我们在该调查中采用的方法。然而，社区正朝着深层场景的方向发展（从图像级对象分类到单个对象定位，再到通用对象检测，再到像素级对象分割），因此预计未来的挑战将超过像素级。

有许多与通用对象检测密切相关的问题。对象分类或对象分类的目标，是从图像中的对象类的数量来评估对象的存在; 即将一个或多个对象类标签分配给给定图像，确定存在而不需要位置。很明显，在图像中定位实例的附加要求使得检测比分类更具挑战性。对象识别问题表示查找和识别图像中存在的感兴趣对象的更普遍的问题，包括对象检测和对象分类的问题。

通用对象检测与语义图像分割密切相关，其目的是将图像中的每个像素分配给语义类标签。对象实例分割旨在区分同一对象类的不同实例，而语义分割不区分不同实例。通用对象检测还区分同一对象的不同实例。与分割不同，对象检测包括边界框中可能对分析有用的背景区域。

2.2 主要挑战

通用对象检测旨在定位和识别广泛的自然对象类别。通用对象检测的理想目标是开发通用对象检测算法，实现两个相互竞争的目标：高质量/高精度和高效率，高质量检测具有准确地定位和识别图像或视频帧中的对象，以便可以区分现实世界中的各种对象类别（即，高度独特性），以及来自同一类别的对象实例，受制于外观的外观变化，可以被本地化和识别（即，高稳健性）。高效率要求整个检测任务以足够高的帧速率运行，并具有可接受的内存和存储使用。尽管几十年的研究取得了重大进展，但可以说，准确性和效率的综合目标尚未实现。

对于后者，变化是由成像条件的变化和不受约束的环境引起的，这可能对物体外观产生巨大的影响。特别是，可以根据大量差异捕获不同的实例，甚至相同的实例：不同的时间，位置，天气条件，相机，背景，照明，视点和观察距离。所有这些条件都会在物体外观上产生显着的变化，例如照明，姿势，比例，遮挡，背景杂波，阴影，模糊和运动，通过数字化伪像，噪声损坏，分辨率差和滤波失真可能会增加进一步的挑战。

除了类内变化之外，大量的对象类别（大约 $10^{4}$ - $10^{5}$ ）要求检测器具有很大的区分能力以区分细微不同的类间变化，如图所示。在实践中，当前的研究者主要关注结构化对象类别，例如PASCAL VOC ，ILSVRC和MS COCO中的20,200和91个对象类别。显然，现有基准数据集中所考虑的对象类别的数量远小于人类可识别的对象类别。

2.2.2与效率相关的挑战

指数增加的图像数量需要高效且可扩展的探测器。社交媒体网络和移动/可穿戴设备的普及导致了对可视化数据进行分析的不断增长的需求。然而，移动/可穿戴设备具有有限的计算能力和存储空间，在这种情况下，有效的物体检测器是关键的。

2.2.1与准确性相关的挑战

对于准确性而言，挑战源于广泛的类内变异和大量的对象类别。

我们从组内变异开始，可以分为两类：内在因素和成像条件。

对于前者，每个对象类别可以具有许多不同的对象实例，可能在颜色，纹理，材料，形状和大小中的一个或多个方面变化，例如图中所示的“椅子”类别。即使在一个更狭义的类别中，例如人或马，物体也会出现在不同的姿势中，具有非刚性变形和不同的外观。

为了提高效率，挑战源于需要局部化和识别大量对象类别的所有对象实例，以及单个图像中非常多的可能位置和比例，如图中的示例所示。进一步的挑战是可扩展性：探测器应该能够处理看不见的对象，未知情况和快速增加的图像数据。例如，ILSVRC 的规模已经对可获得的手动注释施加了限制。随着图像数量和类别数量增加甚至更大，可能无法对其进行人工注释，迫使算法更多地依赖于弱监督的训练数据。

2.3 过去20多年的成就

在1990以前，物体识别主要基于图像object外观来进行模型识别，在这之后才由Neural Network、SVM、Adaboost等算法引领的模型使得该研究领域从几何学时代向统计学分类时代的转变。

20世纪初，是物体识别领域的大发展时期，其中SIFT和DCNN是里程碑事件，局部特征提取大行其道，包括SIFT、Shape Contexts、Histogram of Gradients (HOG) 以及 Local Binary Patterns (LBP)等等算法都有了较大的发展。

自2012年，DCNN的出现才最终打破了基于多线程人工提取特征分类器的局面，更是直接导致了由图像分类向物体检测领域的革命性改革。同时在此发展过程中，CPU计算性能的提高也有莫大的助益。

最后文章指出，研究学们的目标就是搭建起一个稳健、高效、准确率高的可以与人类物体识别能力相媲美的模型，尽管其难度很大。

3.框架

虽然已经产生了如上文所述的各种算法，但是相比之下，滑动窗口的方法还是主流，但与此同时，随着图像像素的增加，滑动窗口的数量也会呈现指数型增加的趋势，多尺度搜索和纵横比需要也会进一步增加搜索空间，由此就会产生计算资源的问题，因此设计等高效的模型就是一个非常重要的任务。由此，模型串联、特征值共享、减少前置窗口计算量等方式就被吸收进各种模型中。

近些年来的一些模型就是从之前各种里程碑式的魔性的基础上发展起来的，广而泛之，这些分类器可以被简单的分成两大类：

1.两阶段检测模型：其中包括区域的预处理阶段

2.一阶段检测模型：并不对区域特征进行预处理，使其还是一个统一的检测模型

3.1 基于区域的二阶段模型

在此模型方法中，类别独立区域的方法被提出，同时CNN特征提取的方式也是由这些区域产生。特定类别分类器用于确定类别标签Detector Net、Over Feat 、Multi Box和RCNN等在CNN的基础上几乎同时提出的独立分类器被用于一般物体检测的项目中。

RCNN：受激励于由CNN的图像分类结果的巨大成就以及基于手工提取特征的区域选择的成功。Girshick 等人所提出的RCNN结合了区域选择性搜索方法和AlexNet，而这个RCNN模型就包括了多阶段的处理过程。

1. 不确定类别的区域方法：包含了选择性搜索方法，其中可能包含对象的候选区域；

2.区域方法：该方法将图像裁剪和扭曲成相同的大小, 作为输入, 同时通过使用诸如ImageNet等大规模数据集的预训练以微调 CNN 模型；

3.利用 CNN 提取的固定长度特征, 对一组类特定的线性 SVM 分类器进行了训练, 替换了微调所学到的Softmax分类;

4.由每个对象类所具有的CNN特征进行产生特征回归Box。

当然，RCNN也有其自身的缺点：

1.训练过程是多进程而且相当复杂的, 同时因为每个阶段都必须单独训练，所以RCNN并不是很文雅、计算速度也比较缓慢并且难以优化；

2.许多区域方法只提供粗略的定位，后续还需要额外检测.

3.训练 SVM 分类器和边界回归Box在磁盘空间和时间上都是消耗巨大的, 因为CNN的特点是独立于每张图像中的每个区域所提取出来的, 对大规模的检测, 尤其是非常深的 cnn, 这就成了巨大的挑战。

4.测试速度很慢, 因为每个测试图像中每个对象都需要提取 CNN 特征。

SPPNet：在测试过程中，RCNN的主要瓶颈是CNN特征提取，He等人在CNN算法中引入了SPP(Spatial Pyramid Pooling),由此CNN网络的输入可以为任意尺寸，但是全连接层还是需要标准尺寸。并且SPP是加在全连接层的上层的，用以获取FC层的固定长度信息。引入SPP的RCNN网络，在不损失检测精度的情况下提高了效率。但是它并没有在训练过程中提高有效速度，同时微调的SPPNet不能够在CNN网络中SPP层之前对其进行修正，此举也正限制了该网络的检测准确度。

FastRCNN：FastRCNN采用了基于跨区域的卷及计算共享的方法，通过在最后的卷积层和FC层之间加入RoI层的方式来获取基于每个Region的固定长度大小的特征。事实上，RoI池化利用基于特征层上的弯曲来形成图像的弯曲，而经过RoI处理的特征图将以向量的形式被喂到最后的FC层，并最终形成两个输出层：基于物体检测的Softmax概率模型和用于方法调整的特殊类别的Box回归模型。对比RCNN和SPPNet，FastRCnn大大提高了效率，大约在训练过程中提速了2倍，在测试过程中提速了9倍。总而言之，FastRCNN拥有更高的物体检测准确度、能够更新网络所有权值的单阶段训练过程以及不需要额外的特征存储空间。

FasterRCNN：尽管FastRCNN拥有较为出色的物体检测效率，但是它始终依赖着额外的Region Proposals，这也因此成为FastRCNN最大的瓶颈，最新研究表明，CNNs能够在最后一层卷积过程中很好的对物体进行定位，而在FC层中，这种能力稍欠。因此Region Porposals的选择性研究完全可以用CNNs进行代替，于是FasterRCNN应运而生，研究学们提出一个高效且准确率高的Region ProposalNetwork (RPN)方法进行Region Proposals提取，FasterRCNN利用单个网络完成RPN提取Region Proprsals的任务，然后利用Fast RCNN进行目标分类。同时RPN和Fast RCNN共享大量的卷积层，最后一个共享卷积层的特征用于从分开的分支中提取Region Proposals和进行区域分类。RPN首先在不同的特征图上初始化不同尺度的k个n*n参照Boxs，每个n*n的anchor被映射成更低维的向量后被传入到两个FC层（物体分类和Box回归），与FastRCNN不同，在RPN中所用来进行回归的特征是具有相同尺寸的，RPN与FastRCNN共享特征向量，由此可以使得Region Proposal计算速度加快。实际上，RPN是一种全连接网络，因此FasterRCNN是一种并不采用人工提取特征的单纯的CNN基本框架。对于网络非常深的VGG16的模型，FasterRCNN 在 GPU 上测试可以达到5fps的速度 (包括所有步骤),同时通过提取的每张图片近300个Proposals的方式打破了2007年PASCAL VOC的艺术性物体检测的精确度。

同时随着快速 RCNN 的发展, Lenc 和 Vedaldi 研究了选择性搜索区域方案生成方法的作用, 研究了区域方案生成在 CNN 探测器中的作用。经研究发现在CNNs中在CONV层中包含了比FC层中更多对于准确进物体检测的高效的几何学特征。他们证明了单纯利用CNN网络（移除了诸如像选择性查找等Region Proposal生成方法）构建一个集成化更高、速度更快、更简单的物体检测识别模型的可能性。

RFCN (Region based Fully Convolutional Network): 虽然FasterRCNN在按照运算级的顺序上要快于FastRCNN，但是事实上区域智能子网还是需要应用前置的ROI（每幅图片有好几百个RoIs），RFCN 探测器是完全卷积模型(没有隐藏 FC 层) ，几乎在整个图像上进行计算共享，正如图8所示，RFCN和RCNN之间的不同之处仅在于RoI子网络，在FasterRCNN模型中，在ROI池化层之后的计算是不能够进行共享的，一个自然的想法是尽量减少无法共享的计算量。因此Dai等人提出全部利用Convs层建立共享型ROI子网络以及在预测之前从最后一层 CONV 特征中取走ROI部分的模型。然而这种设计大大降低了物体检测准确度，他们由此猜测更深层次的Conv网络对于分类高度敏感，而对于转化翻译比较不敏感，而对象检测需要重视转换差异的表示。基于观察，Dai等人通过使用专门的 CONV 层作为 FCN 输出构造了一组位置敏感评分图, 与标准的ROI池化层不同，Dai等人将其加载至对位置敏感的ROI层之上。他们表示, 引入Res Net101的RFCN拥有可以与FasterRCNN相媲美的精确度，同时拥有更快的运行速度。

Mask RCNN：顺应概念简化、高效、灵活性的精神，He等人提出的基于拓展FasterRCNN的Mask RCNN来处理基于像素的物体实例分割模型。Mask RCNN依然采用了连接段处理模型，第一阶段仍然是RPN，而在第二阶段，模型同时预测类和框的偏移量。MASK RCNN 添加一个分支, 用于为每个 ROI 输出二进制MASK，而新的分支是建立在特征图之上的全连接网络，为了避免原始ROI池化层所带来的失衡，于是研究人员提出了整合ROI的概念，将其用于保存像素级别的空间上的信息互通，在以Res Ne Xt101-FPN网络为主体网络架构的Mask RCNN网络达到了在COCO数据集上的物体实例分割和边缘物体检测最好的效果，总而言之Mask RCNN是一个训练简单, 推广容易, 并与FasterRCNN相比仅仅只增加一个小的开销的网络模型,而且其运行速度在 5fps左右。

Light Head RCNN:为了进一步加快RFCN网络模型的运行速度，Li等人提出了Light Head RCNN模型。使得用于检测的网络部分尽可能做成轻量级，以减少ROI部分的计算量，Li等人应用了一个大的内核可分离卷积, 以产生小通道数和更轻量级的 RCNN 子网,使得在实验过程中形成了在速度和精确度之间的良好的平衡状态。

3.2 一阶段模型

虽然在RCNN诞生以来，其在物体检测领域的基准长久不衰，但是其基于Region的计算量也是十分巨大的，这就给本身就受限于存储和计算能力的设备带来极大的不便，因此预期升级个人设备，倒不如设计出一种基于单一进程的物体检测算法模型。

一阶段模型广泛地指的是从一幅图像中直接预测类概率和边界框偏移量的体系结构, 该网络不涉及Region Proposal生成或信息分类。这种方法简单、机智，因为其完全剔除了Region Proposals的生成部分和并发的像素或特征重组的过程,只在一个网络中就封装了所有的运算过程，由于整个检测模型是单个网络, 因此可以直接对检测性能进行端到端优化。

Detector Net:Detector Net将物体检测定义为一个对象边界框Mask的回归问题。他们利用了AlexNet并且将最终的softmax层替换成一个回归层，给定一个图像滑动窗口，他们使用一个网络来预测粗糙网格上的前景像素, 以及利用四个额外的网络来预测对象的上、下、左和右半部分。而之后的分组过程就是将预测的MASK转换为检测到的边界框。每个对象类型和Mask类型都需要训练网络。它不扩展到多个类，Detector Net必须采用许多组图像, 并且每一张图的每一个部分都需要多个网络进行分类计算。

Over Feat：Over Feat是通过 CNN 网络工作, 在多尺度滑动窗口中执行目标检测任务，该模型（除了最后的分类层和回归层之外）只有卷积层，这样在图像重叠的部分就自然而言地进行权值共享，Over Feat产生一个网格的特征向量，每一个向量都或多或少的表示对于输入图像的不同的视野定位信息，并且能够预测和判断物体是否存在。一旦物体被确认存在，该图像的同样的特征就是被用来对单轮廓Box进行回归预测。Over Faet算法利用多尺度特征来提高整体性能, 通过网络传递多达六倍放大规模的原始图像, 并迭代聚合在一起，这就导致的计算上下文视图数量（最终特征向量）显著增加，相较于同期产生的RCNN，Over Feat有着明显的速度优势，而因为在单一阶段的处理中很难训练全连接网络，因此Over Feat有着明显的准确度缺失的缺点。

YOLO (You Only Look Once)：YOLO是一个单一进行的分类器，将物体检测认为是从图像像素到空间分离的边界Box以及独立类别概率模型映射的一种回归问题，YOLO直接利用简单的一系列小的候选Regions进行预测，不同于RCNN，YOLO的预测是基于局部Region的，其利用的是源自于整张图片的特征，特别的，YOLO将图片划分成S*S的小方格，对每一个小方格的类别C进行概率值计算、B边缘BOX预测和对于这些Boxs的置信值计算。这些计算被统一成S×S×(5B + C) 格式的张量，YOLO是一个及其快的设计模型，因为YOLO进行预测时关注于整张图片，它隐晦的编码关于物体分类的上下文信息，不太可能在背景上预测负正例，而YOLO的定位错误主要源自于粗糙的边缘Box定位划分，尺度以及横纵比。YOLO有可能会定位失败，尤其是针对小型物体，可能的原因有小格子的划分是粗略的，或者因为每一个小格子都只包含了一个object对象。

YOLOv2 and YOLO9000：该模型采纳了许多已经存在的各种工作，像Batch Normalnation、移除全连接网络、利用通过Kmeans方法或者多尺度训练等方式形成的anchors boxes等，这两种方法都取得了当时较为不错的成绩，其中YOLO9000通过提出联合优化方法, 在ImageNet和COCO两个数据集上同时进行多源数据组合, 可以实时检测到9000多个对象类别。

SSD (Single Shot Detector):类似于YOLO，SSD预测这些BOXes中存在对象类的固定框数和分数, 然后是一个 NMS 步骤来生成最终检测。SSD中的CNN网络都是全联接的，其前一层是基于像VGG模型算法（在任何层直接产生截断）作为基础网络的，然后, 几个辅助 CONV 层, 逐渐减少的大小, 被添加到基础网络的末尾，而在最后一层中由于低解析度信息导致模型过于粗糙以至于不能够准确地进行定位，所以SSD采用高解析率的隐藏层对小物体进行检测，而对于不同尺度的图像，SSD 通过在多个 CONV 特征映射上的操作来执行多尺度检测，每一次操作都预测适当大小的边界框的分类分数和方框偏移量。对于一个300*300的输入，SSD在Nvidia Titan X的计算机上，在VOC2007的比赛中，实现了以59fbs的速度达到了74.3%的效果。

4.基本子问题

4.1 基于物体表示的DCNN

作为模型的一种重要组件，特征表示在物体检测中占据重要的位置，以前，主要专注设计输入图像的原始描述或开发方法探索将描述分组和抽象为更高层次表示的方法, 以使得判别对象部分出现。

相比之下，像深度CNN网络、DCNN等由多个处理层相结合的而成的通过直接对行图像进行多层处理计算就可以得到较为有效的特征，所以对于深度学习网络而言，学习过程减少了对于传统特征工程所需的特定领域知识和复杂程序的依赖性, 特征表示的负担转移到更好的网络结构设计中。

下面作者综合阐述了由于CNN网络在物体检测目标中的广泛应用和良好效果，因此本文团队综合研究了CNN网络在一般物体识别领域的各种模型设计和效果，同时也关注特征提取方面的成就。

4.1.1 CNN网络结构的流行趋势

作为物体检测识别领域的基石，是由一系列的卷积层、非线性激活层、池化层等各种“等级森严”的层次构成，从细到粗层, 图像反复进行滤波卷积, 并且每经过一层，滤波器的数量就会增加。

介绍了下AlexNet的性能和结构

è¿éåå¾çæè¿°

当下的流行趋势是网络的深度不断增加，AlexNet一共8层，VGGNet一共16层，Res Net和Dense Net均扩展到了100层，这表示更深层次能够更好地提取图像特征，有趣的是，像Alex Net, Over Feat, ZFNet和VGGNet等网络，尽管层数很少，深度也不高，但是它又大量的参数，这是因为大量的参数源自于FC层，因此，像Inception, Res Net和Dense Net等网络通过减少FC层的使用，尽管网络深度很大，但是其参数却不是很多。

Google Net通过利用Inception来设计精妙的拓扑结构来减少参数，类似的，Res Net表明了通过跃层链接在物体检测领域的效果，尤其是在多达100多层的网络中，效果更佳。Inception Res Nets受启发于Res Net，综合利用了Inception和shortout网络，实验表明，shortout网络链接方式能够更好地训练Inception网络，在Res Net网络结构基础上发展而来的Dense Nets采用了Dense模块，而Dense模块以前向反馈的方式与其他网络层进行链接，具有参数效率高、隐含深度监控和特征重用等优点。Hu等人提出了一个architectural单元, 称为Squeeze and Excitation(SE) 块, 它结合现有的深度架构, 以最低的额外计算成本, 提高了性能, 通过对卷积特征通道之间的相互依赖性进行显式建模, 自适应校准 channelwise 特征响应.

不同网络的性能比较：

CNN网络的训练需要大量的标注性图像数据以及组内的非相似性，并不像图像分类，物体检测需要从图片中定位物体，其深度网络的训练是需要对象级标注信息的数据库而非图像级数据，以此提高物体检测的正确率，而对于数以千百计的分类而言，获取或者说对图像中的对象的标注Boxes的代价消耗是非常大的，所以在CNN网络训练中的一个比较常见的形式就是通过利用大量的图像标注信息进行模型的预训练，然后这个已经训练好的模型就可以直接应用到小型数据库中，充当一般特征拓展器的效果，为此其模型能够支持更为广泛的物体种类识别任务，对于检测任务而言，在检测任务的数据集中，预训练网络是典型的微调网络几个典型的图像数据库都被拿来预训练CNN网络，预训练的并没有经过微调的CNNs 网络对于对象分类和检测, 表明特征性能是提取层的功能;对于在ImageNet上进行预训练的AlexNet网络，FC6 / FC7 / Pool5的检测准确率依次下降，而微调的预训练网络可以显著提高模型检测准确度，而FC6 / FC7 / Pool5的训练结果表明，Pool5所提取的特征更具一般化，与此同时，资源和目标数据库之间的关系和相似性也有莫大的关联。

4.1.2 改进对象表示的方法

像RCNN, Fast RCNN,Faster RCNN 和 YOLO等均以CNN为基础网络的模型而言，一般都是利用从第一层CNN提取出来的特征进行物体检测，然而在大规模范围内检测对象是一项根本性的挑战。典型的策略是将这些想法在较大型的数据库上进行实验，这就会使得尽管在内存和运行时间受限的情况下提高物体检测精度，与此同时，CNN网络是逐层计算图像特征的，特征层次结构中的抽样层导致了一个固有的多尺度金字塔。这种固有特征层次结构产生了不同空间分割的特征映射, 但在结构上存在固有的问题：后面的各层有更大的容纳能力和更强的语义性，并且对于像物体动作变化、明暗、部分畸形等问题有更高的稳健性，但与此带来的是精确度的损失和几何细节的丢失，与此相反，网络前几层拥有更小的接受层和更多的几何特征信息，同时拥有较高的分辨率, 对语义的敏感度要小。另外一般而言，根据物体检测目标的大小，物体的语义模型在各个层的计算之后也会慢慢减小，因此如果检测目标比较小的话，它需要在网络的前几层中提取更多的细节，并且这些细节也可能会在后面层计算过后消失，原则上，进行小物体识别的难度是比较大的，为此dilated convolutions和atrous convolution 就被提出，另一方面，如果检测目标尺寸比较大，语义概念在后面的卷积层中就会消失，显然, 预测不同尺度的物体只有一层特征是不理想的,因此基于CNN网络的拓展方法被踢出来，用以解决语义消失的问题，广而言之有三种主要的多尺度物体检测模型：

1.多层CNN网络特征组合的检测

2.在多层CNN网络上直接进行物体检测

3.上述两种方法的融合

(1) Detecting with combined features of multiple CNN layers

该方法在做检测识别任务的时候会将由多个层产生的特征进行整合，典型模型有Hypercolumns, Hyper Net和ION，此类特征组合通常通过跃层连接完成，一种经典的神经网络思想, 它跳过网络中的一些层, 并将较早的层的输出作为输入到后一层, 而这就成为语义分割的常用架构，例如ION通过跳阶池化层从多层网络中提取ROI的特征信息，并且利用组合特征对选择性搜索和 edgeboxes 生成的proposals进行分类。而Hyper Net有着类似的方法，它采取了聚合深层、中层隐含特征信息，通过端对端的集合训练策略进行物体检测，这种方法在一张图片中仅提取100个候选区域，而这种混合特征更具有描述性，并且对于物体检测、定位和分类任务都更具有效性，但是这无疑增加了计算负荷。

(2) Detecting at multiple CNN layers

通过平均分割概率, 将粗数和精细预测结合在一起。SSD、MSCNN、RBFNet以及DSOD等模型结合多个功能映射的预测来处理各种大小的对象。SSD 将不同规模的Boxes扩展到 CNN 中的多个层, 并强制每个层集中于预测某一规模的对象。Liu等人提出，RFBNet模型用于替代带有Receptive Field Block (RFB) 层SSD的卷积神经网络，以增强模型的稳定性和鲁棒性。RFB特别像Inecption块，拥有多分支卷积模块，同时利用不同的核和卷积层将多个分支网络综合在一起。

(3)Combination of the above two methods

像UNet,Hypercolumns, Hyper Net和ION等网络，因为其计算维度比较大，所以通过简单的跃层特征融合并不能够更好地利用高维特征表示，另一方面，利用带有比较大的reception区域的最后一层对大尺度图像进行识别，利用带有比较小的reception区域的最后一层对小尺度图像进行识别是比较自然的想法，然而因为较早期层缺乏语义信息的原因，所以通过较低层进行物体识别的准确率不会很高，因此为了能够综合两种想法，最近有人提出利用多层网络进行物体检测识别的方法，通过组合不同层的特征, 得到了每个检测层的特征。

如上图所示的各种模型，其基本架构是高度相似的，都是将一个有侧连接的Top down网络集成在一个标准的自底向上反馈神经网络之上，在经过自下而上网络后，最终的高层次语义特征由自上而下的网络回传, 并与横向处理后的中间层特征相结合。将进一步处理组合特征, 然后用于检测, 并由自上而下的网络进行传输。

ZIP网络：

由此可以看出，Reverse Fusion Block (RFB) 的不同之处在于它隐藏了底层滤波器的部分，同时混合了多层滤波器的特征，Top_down特征和侧面特征在小的卷积网络中进行处理，同时使用元素特征串联的方式进行特征混合，FPN方法在包括物体检测和对象分割在内的多个领域作为一般特征提取器显示了显著地效能提高。这些方法必须增加其它层去提取多层度特征，另外损失也不能够被忽略，STDn使用DenseNet网络混合不同层的特征并且设计一个尺度转化模型去获取不同分割下的特征图，而尺度转化模型可被直接镶嵌入DenseNet网络模型中同时只需要绩效的额外成本损失。

(4) Model Geometric Transformations.

DCNNS本身就限制了模型有效的集合新值信息传递，一项经验主义研究了DCNN对图像变换的不变性和等价性的实证效果，一些用于提高CNN网络鲁棒性的方法被提出，其目的在于学习不同类型的变换 (如缩放、旋转或两者混合）情境下对不变的 CNN 表示法进行学习。

Modeling Object Deformations:

在深度学习以前，Deformable Part based Models (DPMs) 在物体检测领域取得了巨大的成就，由在可变形配置中排列的组件部件表示对象。这种DPM模型对于转化物体姿态、转化视角以及灵活转换方向等方面而言缺乏敏感性，这是因为这些部件的位置相对稳定, 其局部特征稳定, 这就启发我们重新搜索明确模型对象组成, 以改善 CNN 的检测。而首次在该方向上的研究是融合了了DPMs和CNNS，通过借助在DPM基本检测的基础上的既有AlexNet所学到的深度特征而得来，但是脱离了Region Proposals。为了使 CNN 能够得到对物体部件变形建模的内置能力,包括DeepIDNet、DCN等有许多方法是值得借鉴的,然而虽然想法类似，但是变形的计算是利用不同的方法进行的：

DeepIDNet设计了一个变形受限的池化层由此代替了一般的最大池化层，以学习到共享的视觉模式以及他的不同的类别之间变形的性质特征，Dai等人设计了一个可变性的卷积层以及ROI池化层，这两种方法都是基于将特征图中的正则网格采样位置加设位置偏移和通过卷积学习偏移量的想法,而这想法就直接导致了像Deformable Convolutional Networks (DCN),和DPFCN等方法的出现，Mordan等人基于ROI池化层变形部分的方法，该方法通过同时优化所有元件的潜在位移在object Proposal周围选择分割区域。

4.2 上下文模型

在自然世界中的特殊环境中，视觉物体总是与其有关的物体共存，一个强有力的证据是上下文环境在人体检测领域发挥重要的作用，一般的上下文环境模型对于物体的检测和识别是具有莫大的帮助作用的，尤其是在物体相对比较小，扭曲或者图像的画质较差的情况下，因此许多与此相关的上下文环境模型被提出，而这些上下文环境模型被大体分为三类：

1.语义上下文模型：在某些场景中找到某个对象的可能性，而在其他场景中却找不到

2.空间上下文模型：相对于场景中的其他物体，找到相同位置的物体而不是其他物体的可能性;

3.尺度上下文模型：对象具有相对于场景中其他对象的有限尺度集。

一些先于深度学习的方法被提出，然而，基于DCNN的物体探测器尚未探索大部分这项工作，在物体检测领域，当前的状态是物体检测并不需要精确地进行上下文环境的探究，人们普遍认为DCNN隐含地使用了上下文信息，因为他们学习了具有多个抽象层次的层次表示。然而，在基于DCNN的探测器中明确地探索上下文信息具有很大的价值，因此下面回顾了基于DCNN的对象检测器中利用上下文线索的最近工作，这些对象检测器被组织成全局和局部上下文的类别在早期的研究中被提出。

Global context：该方法提出，图像或场景尺度信息可以在物体检测领域作为cues，在Deep IDNet中，图像的分类得分信息可以被用作上下文特征，而这与物体检测得分相结合的话可以提高物体检测的精确度，在ION中，Bell等人提出利用空间上的Recurrent NeuralNetworks (RNNs)来提取整张图像上的上下文环境信息，在Seg Deep M模型中，Zhu等人提出MRF模型，该模型对每次检测的外观和上下文进行评分，并允许每个候选框选择一个片段并对它们之间的一致性进行评分。

Local context：该模型考虑了物体的局部环境、物体与其环境之间的交互信息，一般而言，对物体关系的建模是极具挑战性的，需要逻辑化不同类别的bounding boxes、定位和尺度等信息，在深度学习领域研究精确的物体关系模型是受限的，其中代表性模型是Spatial Memory Network (SMN) , Object RelationNetwork和Structure Inference Network (SIN)，在SMN中，空间存储器实质上将对象实例返回伪图像表示，该伪图像表示很容易被当做其他CNN以进行对象关系推理，导致新的顺序推理架构，其中图像和存储器被并行处理以获得进一步更新存储器的检测。受激励于NLP的巨大成功，HU等人提出了轻量级的ORN，通过物体的外观特征和几何学特征的交互来并行处理一系列物体，而这个模型既不需要额外的监督，也很容易地嵌入到已存在的模型中，而且该模型已经在物体检测领域表现出高效特征，同时该模型移除了在现代物体检测过程中的removal步骤，由此产生第一个全连接的端对端的物体检测器，SIN模型考虑了包括场景上下文信息和物体与其他单个物体之前关系在内的两种上下文环境信息，他认为，物体检测是一个图像结构推演的问题，给定一张图像，其中的物体被视为图像中的节点，而与其他物体间的关系就是这个模型的边。

更为广泛的方法被提出来，使得模型更为简单，一般而言，由扩大的检测窗口来提取一些局部上下文信息，代表方法有MRCNN , Gated Bi Directional CNN (GBDNet), Attention to Context CNN (ACCNN) , Couple Net和Sermanet。

在MRCNN中，除了在骨干的最后一个CONV层从原始对象Proposals中提取的特征之外，Gidaris and Komodakis提出从一个Object Proposal中的一系列不同的区域中提取信息，为了获得更丰富，更为健壮的图像特征，所有的特征必须进行简单的组合。

还有一些与MRCNN非常相关的方法，[233]中的方法仅使用四个中心区域，以中央凹结构组织，其中分类器被端到端地联合训练，Zeng等人提出从对象Proposals周围的多尺度上下文区域中提取特征，以提高检测性能。不同于简单自然的从每个单独分离出来的图像区域进行学习CNN特征的方法，像MRCNN, GBDNet网络，模型可以通过卷积从不同的上下文区域之间进行信息传递，值得注意的是，由于独立于单个样本，上下文信息的传递并不总是有效的，而Zeng等人通过一个门函数对信息传递进行控制，像Long Short Term Memory (LSTM)networks . Li等人在Concurrent with GBDNet中提出ACCNN综合利用整体和局部的上下文信息提高物体检测识别的精度，而为了捕获物体检测的上下文信息，Multiscale Local Contextualized (MLC)的子网络被提出，可以反复生成输入图像的注意图，以通过多个堆叠的LSTM层突出显示有用的全局上下文位置。为了编码局部信息，Li等人采取了类似于MRCNN的网络结构，Couple Net 在定义上非常像ACCNN，但是是建立在RFCN的基础上，除了RFCN 中的原始分支，其捕获具有位置敏感的RoI池化的对象信息之外，Couple Net添加了一个分支来编码具有RoI池化的全局上下文信息。

4.3 检测Proposal的方法

一张图片可以被定位到任何位置和尺度，在人工信息描述子全盛时期，the Bag of Words (BoW) 和DPM使用的是滑动窗口技术，然而窗口的数量是十分巨大的，并且随着图像像素的增多而不断增加，在多尺度和横纵比下的搜索的需要影响深远并增加了搜索空间，因此过于繁重的计算量需要更加复杂的计算子。

大约在2011年左右，科学家们借由Object Proposals调节了计算量和精确度之间的紧张局面，Object Proposals在一张图中是一系列的候选区域，并且很可能包含物体的区域，Proposals通常被作为一种处理步骤，为了减少由Regions的数量所带来了计算量限制，必须要用检测器进行估计，因此好的检测器必须拥有以下的三个特征：

1.高召回：只需要仅仅几个Proposals就可以进行判断检测

2.拟合物体的Proposals必须尽可能地精确

3.高效率

基于通过选择性搜索给出的Detection Proposals的对象检测的成功引起了广泛的兴趣。

在2014年，在物体检测领域，整合了Object Proposals和DCNN特征的RCNN建立了该领域的一个里程碑，此后Detection Proposals成为了一个标准的处理步骤，基于传统的像颜色、纹理、边和梯度等特征的object Porposals的方法，如Selective Search, MCG和Edge Boxes 等都是非常流行的，随着该领域的不断发展进步，这些传统的方法只被视作检测器的额外处理步骤，成为了检测通道的瓶颈，而一类新兴起的利用DCCNs网络进行object Porposals检测的方法赢得了广泛的关注，近些年来，基于object Porposals的DCNN网络模型被分为两类：基于bounding box和基于segment

Bounding Box Proposal Methods ：该模型被很好地在RPC模型中进行了阐释，RPN通过在最后一个共享CONV层的特征映射上滑动小网络来预先确定Object Proposals，在每一个滑动窗口的位置，模型通过使用K个bounding box并行的计算估计K个Proposals，而每一个anchor box都处于图像很多定位中的中心位置，并与特殊的尺度和横纵比相连接，Ren等人提出了基于共享神经网络在单个网络中整合RPN和FastRCNN的模型，而这种设计使得模型得到了实质性的加速并创造了第一个端对端的检测模型，RPN已被许多最先进的对象研究者广泛选为Proposal方法。

不像Multi Box和RPN设定一组锚定，Lu等人提出通过使用递归循环网络算法生成anchor位置，这种方法使得算法更专注于可能存在物体的子区域之中，从整个图像开始，在搜索过程中访问的所有区域都充当锚点。在搜索过程中所遇到的所有的区域都会被当做锚点，标量缩放指示器用于决定是否进一步划分区域，而物体的bounding box的得分都是经由Adjacency and Zoom Network (AZNet)进行计算的，AZNet通过增加了一个可以同其他网络层进行并行处理的用于计算尺度缩放指示器的分支从而拓展了RPN。

与RPN同时被提出的有Ghodrati等人提出的通过使用多层卷积神经网络提取的特征来进行的obejct proposals的Deep-proposals方法，构建一个反向级联网络，以选择最有希望的对象位置，并以粗略到精细的方式细化它们的Boxes。而RPN的进阶版本HyperNet设计了一个HyperFeature的特征，它整合了多层网络上得到的Features，通过端到端的联合训练策略共享它们在生成proposals和检测对象中的作用,Yang等人提出了CRAFT也是用了级联策略，首先训练一个RPN网络来生成object proposals，然后再利用他们训练另一个二进制Fast RCNN网络，以期能够在背景中把物体检测识别出来，Li等人提出ZIP以改进RPN，利用常用的预测Region Porposals的思想，在网络的不同深度使用多个卷积特征映射来集成低级细节和高级语义。而在ZIP模型中所使用的技术核心是Zoom in and out，此思想源自于卷积和反卷积的策略。

最后需要提到的包括DeepBox，该方法提出了一种轻量级的CNN网络去学习重新排列由EdgeBox生成的Proposals，另外De Net 引入了一个边界框角估计来有效地预测Region Porpopsals，以更快的RCNN型两级探测器取代RPN。

Object Segment Proposal Methods：该方法的目的在于生成与物体有关的Segment Porposals，Segment Porposals比Box Proposals拥有更多的信息，该方法使得该领域向物体对象分割迈进了长远的一步，同期的方法还有Pinheiro提出的DeepMask方法，segment propopsals是行图像经由深度神经网络训练得来，同RPN共享策略相似，在经过一系列的共享卷积层之后，DeepMaskNet划分成两个分支，用以估计图像的未知编码和与物体相关的得分，与在Over Feat网络中相似的有效的滑动窗口机制相类似，在计算过程中，训练的Deep Mask网络以滑动窗口的方式应用于图像。最近Pinheiro等人提出了一种SharpMask网络模型，该方法利用修正的模型加强了DeepMask网络效果，Sharp Mask可以有效地将来自早期特征空间丰富信息与后期层中的强语义信息编码相结合，以生成高保真度Object Mask。

受Fully Convolutional Networks (FCN)和DeepMask在语义分割领域的功效的激励，Dai等人提出了Instance FCN用以整合实例的Segment Proposals，同DeepMask相似，FCN也将网络划分成两个分支，这两个分支都是属于全连接网络，一个分支生成一小组实例敏感分数图，其次是组装模块，输出实例，另一组用于预测对象性得分。Hu等人提出了FastMask模型，以类似于SSD的一次性方式有效地生成Segment Proposals，主要为了能够在深层网络中利用多尺度卷积特征。从多尺度卷积特征图密集地提取的滑动窗口输入到尺度容忍的注意头模块以预测分割掩模和对象分数。Qiao等人提出了ScaleNet，其通过明确添加比例预测阶段取代了之前的物体object Porposals的方法，诸如SharpMask。也就是说，Scale Net估计输入图像的对象比例的分布，Sharp-Mask在Scale Net上预测的比例下搜索输入图像并输出实例Segment Proposals。Qiao等人表明他们的方法在超级市场数据集上d的表现大大优于先前的技术水平。

4.4 其他特殊的问题

为了得到更好的更稳健的DCNN网络特征，对数据进行强化是必不可少的过程，这一过程既可以用于训练阶段，也可以用于测试阶段，或者两者兼而有之，增强是指通过使基础类别保持不变的变换来扰乱图像，例如裁剪，翻转，旋转，缩放和平移，以便生成类的其他样本。数据增强会影响深度特征表示的认知表现，然而他也会有自身的缺陷，因为其自身推断和检测计算能力的显著增加，该算法在实际应用过程中比较受限制，在大尺度形变中进行物体检测尤其是小物体检测是一个非常大的挑战，经验表明，对图像进行分割的方法在物体检测领域能够获得比较大的精确度，因此在这些数据分割方式中，尺度是最常用的一个，因为高度分割可以扩大小物体被检测出来的可能性，Singh等人提出了超前有效的数据分割方式——SNIP、SNIPER，以此来阐述尺度不变性问题，直觉理解，大、小物体在更大或更小的尺度范围内是很难被检测识别出来的，Singh提出来一个新颖的方法模式——SNIP，他可以在训练样本不变的情况下在训练过程中减小尺度变形，而SNIPER是一个用于多尺度训练的方法，它只以适当的比例处理背景实况对象周围的上下文区域，而不是处理整个图像金字塔。Shrivastava和Lin的团队提出了处理极端的前景和背景分类的平衡问题，Wang等人提出了训练一个对抗性网络来生成具有遮挡和变形的样本，而这些遮挡和变形难以被物体探测器识别。有些工作专注于开发更好的非最大抑制方法。

5.数据集和绩效评估

5.1 DataSets

数据集在物体检测领域的研究历史中占据了重要的位置，对于该领域长足的进步而言，数据库是最重要的影响因素之一，它不仅是衡量和比较竞争算法性能的共同基础，也是推动该领域向更复杂更具有挑战性方向发展的主要力量，目前对因特网上大量图像的访问使得可以建立越来越多的图像和类别的综合数据集，以便捕获更大的对象的丰富性和多样性。拥有数百万张图像的大规模数据集的兴起为该领域的重大突破铺平了道路，并在物体识别方向实现了前所未有的性能。

代表性的数据库有Caltech101,Caltech256, Scenes15 , PASCAL VOC (2007),Tiny Images, CIFAR10 , SUN , Image Net ,Places , MS COCO 以及Open Images。

早期数据库，如Caltech101 或者 Caltech256，因为其缺乏对于其本身存在的类内的变形因此广受争议，因此，SUN通过找到描绘各种场景类别来收集图片，其中的许多图像都有其场景和物体的描述性信息，因此可以用来进行物体检测和场景识别，Tiny Images创建了一个超出想象尺度的数据集，给予最广泛类别的场景和类别，然而其标注性信息并不是人工进行确认的，其中不乏许多错误，因此，来自Tiny Image的具有两个可靠的标签的基准（CIFAR10和CI-FAR100）产生。

PASCAL VOC是一项多年努力，致力于创建和维护一系列用于分类和对象检测的基准数据集，为年度竞争形式的识别算法的标准化评估创造了先例。从2005年的四个类别开始，增加到日常生活中常见的20个类别，它将对象识别研究推向了新的高度。

Image Net数据集的图片公认物体比较大而且多居于图像的中心，使得数据集在现实场景中不典型。为了解决这一问题，将研究推向更丰富的图像理解，研究人员创建了MS COCO数据库。 MS COCO中的图像是复杂的日常场景，在其自然环境中包含常见对象，更接近现实生活，并且使用完全分段的实例标记对象以提供更准确的检测器评估。位置数据库包含1000万个场景图像，带有场景语义类别的label，为数据饥饿的深度学习算法提供了达到人类视觉模式识别的机会。更新的数据库——Open Images ，是大约900万张图像的数据，这些图像已经用图像级别标签和对象边界框注释。

目前物体检测识别领域有几大著名的挑战——PASCAL VOC, ILSVRC和MS COCO 每一个挑战都包含两个任务：公开可用的图像数据集以及背景实况注释和标准化评估软件以及年度竞赛和相应的研讨会。

5.2 评判标准

评估检测算法性能有三个标准：检测速度（每秒帧数，FPS），精度和召回率。最常用的指标是平均精度（AP），源自精度和召回。 AP通常以类别特定的方式进行评估，即分别为每个对象类别进行计算。

5.3 效果

近些年来，大量的物体检测器不断涌现，像PASCALVOC , Image Net 和 COCO这些标准数据集也在引入，使检测器在准确性方面的比较变得更容易。而仅在准确性，速度和记忆方面客观地比较探测器是困难的，因为它们在基本/上下文方面可能不同，包括以下内容：

IoU：是一种测量在特定数据集中检测相应物体准确度的一个标准。IoU是一个简单的测量标准，只要是在输出中得出一个预测范围的任务都可以用IoU来进行测量

1.像RCNN, Fast RCNN, Faster RCNN, RFCN, Mask RCNN, YOLO和SSD等相同的网络

2.像VGG, Inception, Res Net, Res Ne Xt, Xceptio和Det Net等核心网络

3.创新如多层特征组合，可变形卷积网络，可变形RoIPooling等

4.在诸如Image Net, COCO,Places, JFT 和Open Images等数据库中进行预训练

5. 不同的检测Proposals方法和不同数量的对象Proposals;

6.训练/测试数据增加“技巧”，如重复，水平翻转，多尺度图像和新的多尺度训练策略、掩盖紧缩和模型集合等。

虽然比较每个最近提出的探测器可能是不切实际的，但将代表性和公众可用的探测器集成到一个共同的平台中以便以统一的方式比较它们是非常有价值的。通过研究表明（详看原文数据），骨架网络、检测框架设计和大规模数据集的可用性是检测中最重要的三个因素，此外，多个模型的集合，上下文特征的结合以及数据增强都有助于实现更高的准确性，但是实践表明现有技术探测器所达到的精度水平远远不能满足通用实际应用的要求，所以未来的改进仍有很大空间。

6.总结

通用对象检测是计算机视觉中一个重要且具有挑战性的问题，并且受到了广泛的关注。由于深度学习技术的显着发展，对象检测领域已经发生了巨大的变化。作为对通用对象检测深度学习的综合调查，本文突出了最近的成就，根据其在检测中的作用提供了方法的结构分类，总结了现有的流行数据集和评估标准，以及最具代表性的讨论性能方法。虽然通用物体检测近些年来取得了重大的成就，但是最先进的和人性化的表现之间仍存在巨大差距，特别是在开放世界学习方面。还有很多工作要做，我们认为这些工作集中在以下八个领域：

1.Open World Learning: 最终目标是开发对象检测系统，能够准确，高效地识别和定位所有开放世界场景中所有对象类别（数千或更多对象类）的实例，与人类视觉系统竞争。最近的物体检测算法是利用有限的数据集学习的，目的是识别和定位数据集中包含的对象类别，但原则上这是盲目的，应当是对于数据集之外的其他对象类别的识别，尽管理想情况下强大的检测系统应该能够认识新颖的对象类别。当前的检测数据集仅包含数十个到数百个类别，这明显小于人类可以识别的类别。为了实现这一目标，需要开发具有更多通用对象检测类别的新的大规模标记数据集，因为有关CNN的状态需要大量数据来进行良好的训练。然而，收集如此大量的数据，特别是用于对象检测的边界框标签，是非常昂贵的，尤其是对于数十万个类别。

2.Better and More Efficient Detection Frameworks:通用对象检测取得巨大成功的因素之一是开发了更好的检测框架，基于区域（RCNN，Fast RCNN [64]，Faster RCNN [175]，Mask RCNN ）和单态探测器（YOLO、SSD）。基于区域的探测器具有最高的精度，但对于嵌入式或实时系统来说计算量太大。一级探测器有可能更快更简单，但尚未达到基于区域的探测器的准确性。一个可能的限制是，现有技术的对象检测器严重依赖于底层骨干网络，该骨干网络最初已经针对图像分类进行了优化，由于分类和检测之间的差异而导致了学习偏差，因此一种潜在的策略是从头开始学习物体探测器，如DSOD探测器。

3.Compact and Efficient Deep CNN Features:在通用对象检测方面取得长足进步的另一个重要因素是强大的深层CNN的发展，从几层（例如，Alex Net）到数百层（例如Res），其深度显着增加。这些网络拥有数百万到数亿个参数，需要大量数据和耗电的GPU进行培训，再次将其应用限制在实时/嵌入式应用中，作为回应，人们越来越关注紧凑和轻量级网络，网络压缩和加速以及网络解释和理解，

4.Robust Object Representations:使物体识别问题如此具有挑战性的一个重要因素是真实世界图像的巨大变化，包括视点和光照变化，物体尺度，物体姿态，物体部分变形，背景杂波，遮挡，外观变化，图像模糊，年龄分辨率，噪音，相机限制和扭曲。尽管深度网络的进步，它们仍然受到这些许多变化缺乏鲁棒性的限制，这显然限制了实际应用的可用性。

5.Context Reasoning: 真实世界的对象通常与其他对象和环境共存。已经认识到，语境信息（对象关系，全局场景统计）有助于物体检测和识别，特别是在小物体或遮挡物体的情况下或图像质量差的情况下。在深度学习之前有大量的工作，但是自从深度学习时代以来，在利用语境信息方面只取得了非常有限的进展。如何有效和有效地结合上下文信息仍有待探索，理想情况是由人类如何快速引导他们的注意力引导自然景观中的感兴趣对象引导。

6.Object Instance Segmentation:继续朝着更丰富和更详细的理解图像内容的趋势发展（例如，从图像分类到单个对象定位到对象检测），下一个挑战是解决像素级对象实例分割，因为对象实例分割可以在许多需要单个实例的精确边界的潜在应用程序中发挥重要作用。

7.Weakly Supervised or Unsupervised Learning: 当前状态的检测器采用从带有对象边界框或分割掩模的标记数据中学习的全监督模型，然而这种完全监督的学习具有严重的局限性，其中边界框注释的假设可能成为问题，尤其是当对象的类别数量很大时。在没有完全标记的训练数据的情况下，完全监督学习是不可扩展的，因此研究如何在弱监督或无监督检测中利用CNN的功效是有价值的。

8.3D Object Detection: 深度相机的进展可以以RGB-Dimages或3D点云的形式获取深度信息。深度模态可用于帮助对象检测和识别，但是在方向上会是一个比较受限的问题，但是可能促使利用大量高质量CAD模型的优势。

Deep Learning for Generic Object Detection: A Survey