只查看一次：统一、实时的对象检测

原文名称:You Only Look Once:Unified, Real-Time Object Detection

http://pjreddie.com/yolo/
摘要
本文提出了一种新的目标检测方法——YOLO。在对象检测之前的工作重新使用分类器来执行检测。相反，我们将对象检测作为空间上分离的边界框和相关类概率的回归问题。在一个评估中，单个神经网络直接从完整图像预测边界框和类概率。由于整个检测流水线为单个网络，因此可以直接对检测性能进行端到端优化。
我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。网络的较小版本Fast YOLO每秒处理惊人的155帧，同时仍能达到其他实时检测器的两倍mAP。与最先进的检测系统相比，YOLO定位误差更大，但预测背景假阳性的可能性更小。最后，YOLO学习对象的非常一般的表示。它优于其他检测方法，包括DPM和R-CNN，当从自然图像推广到其他领域，如艺术品。
1。介绍
人类瞥了一眼图像，立刻就知道图像中的对象是什么，它们在哪里，以及它们如何交互。人类的视觉系统是快速和准确的，允许我们执行复杂的任务，如驾驶很少有意识的想法。快速、准确的目标检测算法将允许计算机在没有专用传感器的情况下驾驶汽车，使辅助设备能够向人类用户传送实时场景信息，并开启通用、响应性机器人系统的潜力。当前的检测系统重新使用分类器来执行检测。为了检测一个对象，这些系统为该对象获取一个分类器，并在测试图像中的不同位置和尺度对其进行评估。像可变形部件模型（DPM）这样的系统使用滑动窗口方法，其中分类器在整个图像上均匀间隔的位置运行[10]。

像R-CNN这样的最新方法使用区域建议方法首先在图像中生成潜在的边界框，然后在这些建议的框上运行分类器。在分类之后，使用后处理来细化边界框，消除重复检测，并基于场景中的其他对象对框进行重新核[13]。这些复杂的流水线很慢，而且很难优化，因为每个单独的组件都必须单独训练。
我们将目标检测重新定义为单个回归问题，从图像像素直接到边界框坐标和类概率。使用我们的系统，您只需要看一次（YOLO）图像，就可以预测存在哪些对象以及它们在哪里。
YOLO非常简单：参见图1。单个卷积网络同时预测多个边界框以及这些框的类概率。YOLO训练全图像，并直接优化检测性能。与传统的目标检测方法相比，该统一模型具有若干优点。
首先，YOLO的速度非常快。由于我们将检测框架化为回归问题，因此不需要复杂的流水线。我们只需在测试时对新的图像运行我们的神经网络来预测检测。我们的基本网络以每秒45帧的速度运行，没有在Titan X GPU上进行批处理，快速版本以超过150fps的速度运行。这意味着我们可以在不到25毫秒的延迟下实时处理流视频。此外，YOLO实现的平均精度是其他实时系统的两倍以上。有关在摄像头上实时运行的系统的演示，请参阅我们的项目网页：http://pjred..com/yolo/。

其次，YOLO在进行预测时从全球范围对图像进行推理。与基于滑动窗口和区域建议的技术不同，YOLO在训练和测试期间看到整个图像，因此它隐式地编码关于类的上下文信息以及它们的外观。快速R-CNN，一种顶级检测方法[14]，因为无法看到更大的上下文，所以在图像中将背景补丁错误地用于对象。与快速R-CNN相比，YOLO产生的背景错误少于一半。
第三，YOLO学习对象的通用表示。当在自然图像上训练并在艺术品上测试时，YOLO的性能远远优于DPM和R-CNN等顶级检测方法。由于YOLO具有高度通用性，所以当应用到新域或意外输入时，它就不太可能崩溃。
YOLO的精度仍然落后于最先进的检测系统。虽然它能够快速地识别图像中的对象，但它很难精确地定位一些对象，尤其是小对象。我们在实验中进一步研究这些折衷。
我们所有的培训和测试代码都是开源的。还可以下载各种预测模型。

2。统一检测
我们将目标检测的各个部分统一为一个单一的神经网络。我们的网络使用来自整个图像的特征来预测每个边界框。它还可以同时预测图像的所有类的所有边界框。这意味着我们的网络原因关于整个图像和图像中的所有对象。
YOLO设计支持端到端的训练和实时速度，同时保持高的平均精度。
该系统将输入图像分割成S×S网格。如果对象的中心落入网格单元中，则该网格单元负责检测该对象。
每个网格单元预测B边界框和这些框的置信分数。这些置信度分数反映了模型是如何确信盒子包含一个对象，以及它认为盒子预测的准确度。形式上，我们定义置信度为Pr(Object)IOUtruth pred.如果该单元格中没有对象，则置信度分数应该为零。否则，我们希望置信度得分等于预测框和地面真值之间的联合交叉（IOU）。
每个边界框由5个预测组成：x、y、w、h和置信度。（x；y）坐标表示框相对于网格单元格边界的中心。预测宽度和高度相对于整个图像。最后，置信度预测表示预测框和任何地面真值框之间的IOU。
每个网格单元还预测C条件类概率Pr(ClassijObject)。这些概率取决于包含对象的网格单元。我们只预测每个网格单元格的一组类概率，而不管框B的数量。
在测试时，我们将条件类概率和单个框置信度预测相乘，

为每个框提供特定于类的信心评分。这些分数既编码了类出现在框中的概率，也编码了预测框是否适合对象。

为了评价PASCAL VOC上的YOLO，我们使用S=7，B=2。PASCAL VOC有20个标记类，所以C=20。我们的最终预测是7×7×30张量。
2.1。网络设计
我们将该模型实现为卷积神经网络，并在PASCAL VOC检测数据集[9]上进行评估。网络的初始卷积层从图像中提取特征，而全连接层预测输出概率和坐标。
我们的网络架构的灵感来自用于图像分类的GoogLeNet模型[34]。我们的网络有24层卷积层，然后是2个完全连接的层。
代替GoogLeNet使用的初始模块，我们简单地使用1×1缩减层，然后使用3×3卷积层，类似于Lin等人[22]。完整的网络如图3所示。
我们还训练了一个快速版本的YOLO，用于推动快速对象检测的边界。快速YOLO使用具有较少卷积层（9层而不是24层）和那些层中较少滤波器的神经网络。除了网络的规模之外，YOLO和Fast YOLO之间的所有训练和测试参数都是相同的。

网络的最终输出是7×7×30张量的预测。
2.2。训练
我们在ImageNet 1000级比赛数据集[30]上预演我们的卷积层。对于预雨，我们使用图3中的前20个卷积层，然后是平均汇集层和全连接层。我们在ImageNet 2012验证集上对这个网络进行了大约一周的训练，并获得了88%的顶级单作物精度，与Caffe的模型动物园中的GoogLeNet模型相当[24]。我们使用Dar.t框架进行所有训练和推理[26]。
然后，我们将模型转换为执行检测。任等人表明在预训练网络中同时加入卷积层和连接层可以提高性能[29]。根据他们的例子，我们添加了四个卷积层和两个具有随机初始化权重的完全连接的层。检测往往需要细粒度的视觉信息，因此我们把网络的输入分辨率从224×224提高到448×448。
我们的最后一层预测类概率和边界框坐标。我们用图像的宽度和高度来标准化边界框的宽度和高度，使它们落在0和1之间。我们将边界框x和y坐标参数化为特定网格单元位置的偏移，因此它们也在0和1之间有边界。
我们对最终层使用线性激活函数，所有其他层使用以下泄漏整流线性激活：

我们对模型的输出中的平方和误差进行了优化。我们使用平方和误差，因为它很容易优化，但它与我们最大化平均精度的目标不完全一致。该方法将定位误差与分类误差等同地加权，这可能不是理想的。
而且，在每幅图像中，许多网格单元不包含任何对象。这将那些单元的“置信度”分数推向零，常常会压倒包含对象的单元的梯度。这会导致模型不稳定，导致早期的培训出现分歧。
为了解决这个问题，我们增加了边界框坐标预测的损失，并且减少了不包含对象的框的置信度预测的损失。我们使用两个参数，λcoord和λnoobj来实现这一点。我们设置λcoord=5和λnoobj=:5。
平方和误差也同样加权在大盒和小盒中的误差。我们的误差度量应该反映大盒子里的小偏差比小盒子里的小偏差要小。为了部分地解决这个问题，我们预测了边框宽度和高度的平方根，而不是直接预测宽度和高度。
YOLO预测每个网格单元有多个边界框。在训练时，我们只需要一个边界框预测器来负责每个对象。我们指定一个预测器“负责”预测基于哪个预测具有最高的当前IOU与地面真相的对象。这导致边界框预测器之间的专门化。每个预测器在预测特定大小、长宽比或对象类别方面都做得更好，从而提高了整体回忆能力。

在训练期间，我们优化了以下多部分损失函数：

其中1obj i表示对象是否出现在单元i中，1obj ij表示单元i中的第j个边界框预测器“负责”该预测。
注意，如果网格单元中存在对象（因此前面讨论的条件类概率），则损失函数仅惩罚分类错误。如果该预测器“负责”地面真值框（即，在该网格单元中具有任何预测器中的最高IOU），则它还仅惩罚边界框坐标误差。
我们在PASCAL VOC 2007和2012年的培训和验证数据集上培训网络大约135个世纪。在2012年测试时，我们还包括VOC 2007测试数据用于培训。在整个训练过程中，我们使用的批量大小是64，动量是0:9，衰减是0:0005。
我们的学习速率安排如下：在第一个阶段，我们慢慢地把学习速率从10_3提高到10_2。如果我们以高学习速率开始，我们的模型经常由于不稳定的梯度而发散。我们继续以10_2训练75个阶段，然后10_3训练30个阶段，最后10_4训练30个阶段。
为了避免过拟合，我们使用辍学和广泛的数据扩充。在第一连接层防止层[18]之间的共适应之后，具有速率=.5的漏失层。对于数据放大，我们引入了高达原始图像大小的20%的随机缩放和平移。我们还随机调整曝光和图像饱和度高达1：5的因素在HSV颜色空间。
2.3。推论
就像在训练中一样，预测测试图像的检测只需要一个网络评估。在PASCAL VOC上，网络预测每幅图像的98个边界框，以及每个框的类概率。与基于分类器的方法不同，YOLO在测试时非常快，因为它只需要单个网络评估。
网格设计加强了边界框预测中的空间分集。通常很清楚一个对象属于哪个网格单元，并且网络只预测每个对象的一个框。然而，多个单元格边界附近的一些大型对象或对象可以被多个单元格很好地定位。非最大抑制可用于固定这些多重检测。虽然不像R-CNN或DPM那样对性能至关重要，但非最大抑制增加了2-3%的mAP。

2.4。YOLO的局限性
YOLO对边界框预测施加了强大的空间约束，因为每个网格单元只能预测两个框并且只能有一个类。这种空间约束限制了我们的模型可以预测的附近物体的数量。我们的模型与成群出现的小物体，如成群的鸟搏斗。由于我们的模型学会了从数据中预测边界框，所以它很难推广到新的或不寻常的长宽比或配置的对象。我们的模型还使用相对粗糙的特征来预测边界框，因为我们的体系结构具有来自输入图像的多个下采样层。
最后，当我们训练近似检测性能的损失函数时，我们的损失函数处理小边界框和大边界框中的误差是一样的。大盒中的小错误通常是良性的，但是小盒中的小错误对IOU的影响要大得多。我们主要的错误来源是不正确的定位。
3。与其他检测系统的比较
目标检测是计算机视觉中的一个核心问题。检测流水线通常通过从输入图像中提取一组鲁棒特征开始(Haar[25]、SIFT[23]、HOG[4]、卷积特征[6])。然后，使用分类器[36、21、13、10]或定位器[1、32]来识别特征空间中的对象。这些分类器或定位器要么以滑动窗口方式在整个图像上运行，要么在图像[35，15，39]中的某些区域子集上运行。我们将YOLO检测系统与几个顶级检测框架进行比较，突出关键相似点和不同点。
可变形零件模型。可变形零件模型（DPM）使用滑动窗口方法来检测物体[10]。DPM使用不相交的管道来提取静态特征、分类区域、预测高得分区域的边界框等。我们的系统用一个卷积神经网络代替所有这些不相干的部分。该网络同时进行特征提取、边界盒预测、非极大值抑制和上下文推理。网络不是静态特征，而是对特征进行在线训练，并为检测任务优化它们。我们的统一架构导致比DPM更快、更精确的模型。

R－CNN R-CNN及其变体使用区域建议而不是滑动窗口在图像中查找对象。选择性搜索[35]生成潜在的边界框，卷积网络提取特征，SVM对框进行评分，线性模型调整边界框，非最大抑制消除重复检测。这个复杂的流水线的每个阶段必须被精确地独立地调谐，并且所得到的系统非常慢，在测试时每幅图像花费超过40秒[14]。
YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框，并使用卷积特征对这些框进行评分。然而，我们的系统对网格单元提议施加空间约束，这有助于减轻对同一物体的多次检测。我们的系统还建议更少的边框，每张图像只有98个，相比之下，选择性搜索大约有2000个。最后，我们的系统将这些单独的组件组合成一个单一的、联合优化的模型。
其他快速检测器快速和快速R-CNN专注于通过共享计算以及使用神经网络来提出区域来加速R-CNN框架，而不是选择性搜索[14][28]。虽然与R-CNN相比，它们提供了速度和精确度的改进，但是它们仍然缺乏实时性能。
许多研究工作集中在加速DPM流水线[31][38][5]。它们加速HOG计算，使用级联，并将计算推送到GPU。然而，实际上只有30Hz的DPM[31]实时运行。YOLO没有试图优化大型检测流水线的各个组件，而是完全抛弃了流水线，并且设计速度很快。
对于像面部或人的单个类的检测器可以高度优化，因为它们必须处理更少的变化[37]。YOLO是一种通用检测器，它学习同时检测各种对象。
深层多盒。与R-CNN不同，Szegedy等人。训练一个卷积神经网络来预测感兴趣的区域[8]，而不是使用选择性搜索。MultiBox还可以通过将置信度预测替换为单个类预测来执行单个对象检测。然而，MultiBox不能执行一般的对象检测，并且仍然只是更大检测流水线中的一部分，需要进一步的图像补丁分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框，但是YOLO是一个完整的检测系统。
过度训练 Sermanet等。训练一个卷积神经网络来执行定位，并使该定位器适应于执行检测[32]。OverFeat有效地执行了滑动窗口检测，但它仍然是一个不相交的系统。OverFeat优化了定位，而不是检测性能。与DPM一样，定位器在进行预测时只看到本地信息。OverFeat不能推理出全局上下文，因此需要大量的后处理来产生相干检测。
MultiGrasp.我们的工作在设计上与Redmon等人的抓取检测工作类似[27]。我们的边界框预测的网格方法是基于MultiGrasp系统的回归抓取。然而，抓取检测比目标检测简单得多。MultiGrasp只需要预测包含一个对象的图像的单个可抓取区域。它不需要估计物体的大小、位置或边界，也不需要预测它的类别，只需要找到一个适合抓取的区域。YOLO预测图像中多个类的多个对象的边界框和类概率。

4。实验
首先在PASCAL VOC 2007上对YOLO与其他实时检测系统进行了比较。为了理解YOLO和R-CNN变体之间的差异，我们探索了由YOLO和快速R-CNN（R-CNN的最高性能版本之一）在VOC 2007上造成的错误[14]。基于不同的误差分布，我们证明了YOLO可以用于快速R-CNN检测的重新核，并减少背景假阳性的误差，从而显著地提高了性能。我们还介绍了VOC 2012的结果，并将mAP与当前最先进的方法进行比较。最后，我们在两个艺术品数据集上证明了YOLO比其他检测器更好地推广到新的领域。
4.1。与其他实时系统的比较
目标检测的研究主要集中在使标准检测流水线快速。[5][38][31][14][17][28]然而，只有Sadeghi等人。实际产生一个实时运行的检测系统（每秒30帧或更好）[31]。我们比较YOLO和它们的GPU实现的DPM运行在30Hz或100Hz。虽然其他的努力没有达到实时的里程碑，我们还比较了它们的相对mAP和速度，以检查在对象检测系统中可用的精度-性能折衷。
快速YOLO是PASCAL上速度最快的目标检测方法，据我们所知，它是现存速度最快的目标检测器。使用52：7%的mAP，它比先前的实时检测工作精确两倍多。YOLO将mAP推到63：4%，同时仍然保持实时性能。
我们还使用VGG-16训练YOLO。这个模型比YOLO更精确，但是也明显慢于YOLO。与依赖VGG-16的其他检测系统相比，这是非常有用的，但是由于它比实时慢，所以本文的其余部分将重点放在更快的模型上。
快速DPM在不牺牲大量mAP的情况下有效地加速了DPM，但是它仍然遗漏了2[38]倍的实时性能。与神经网络方法相比，DPM的检测精度相对较低。
R-CNN减R用静态边界框建议代替选择性搜索[20]。虽然它比R-CNN快得多，但是它仍然缺乏实时性，并且由于没有好的建议而受到显著的准确性打击。

快速R-CNN加速了R-CNN的分类阶段，但它仍然依赖于每幅图像需要大约2秒的选择性搜索来生成包围盒建议。因此，它的mAP很高，但在0:5fps，它仍然远远没有达到实时性。
最近的快速R-CNN用神经网络代替了选择性搜索，从而提出了边界框，类似于Szegedy等人。_8_在我们的测试中，他们最精确的模型达到7fps，而较小的、不太精确的模型在18fps下运行。VGG-16版本的R-CNN比YOLO快10mAP，但是也慢6倍。ZeilerFergus更快的R-CNN比YOLO慢2.5倍，但是精度也较低。
4.2。VOC 2007误差分析
为了进一步研究YOLO与最先进的探测器之间的差异，我们查看了VOC 2007的详细结果。我们比较YOLO和快速RCNN，因为快速R-CNN是PASCAL上性能最好的检测器之一，它的检测是公开的。
我们使用Hoiem等人的方法和工具。[19]对于测试时的每个类别，我们查看该类别的顶部N个预测。每个预测要么是正确的，要么根据误差类型对其进行分类：
•正确：正确的班级和欠条>：5
•本地化：正确类：1<IOU<：5
•类似：类相似，IOU>：1
•其他：班级错误，借条>：1
背景：任何物体的IOU<:1
图4显示了所有20个类中平均的每个错误类型的分类。
YOLO努力正确地定位对象。本地化错误占YOLO错误总和的比例高于所有其他来源。快速R-CNN使定位误差小得多，但背景误差大得多。13.6%的最高检测是不包含任何对象的假阳性。快速R-CNN比YOLO更有可能预测背景检测。

4.3。快速R-CNN与YOLO的结合
YOLO的背景错误比快速R-CNN少得多。通过使用YOLO来消除快速R-CNN中的背景检测，我们的性能得到了显著的提高。对于R-CNN预测的每个边界框，我们检查YOLO是否预测类似的框。如果是，我们将基于YOLO预测的概率和两个框之间的重叠来提高预测。
最好的快速R-CNN模型在VOC 2007测试集上达到了71.8%的mAP。与YOLO联合使用时，其mAP增加3.2%至75.0%。我们还尝试将顶级的快速R-CNN模型与其他版本的快速R-CNN相结合。这些组合产生的mAP小幅增长在.3%到.6%之间，详情见表2。
YOLO的推广不仅仅是模型集成的副产品，因为结合不同版本的快速R-CNN几乎没有什么好处。确切地说，正是因为YOLO在测试时犯了不同的错误，所以它在提高快速R-CNN的性能方面非常有效。
不幸的是，这种组合并不受益于YOLO的速度，因为我们分别运行每个模型，然后组合结果。然而，由于YOLO的速度非常快，所以与快速R-CNN相比，它不会增加任何显著的计算时间。

4.4。VOC 2012结果
在VOC 2012测试中，YOLO的得分为57.9%mAP。这低于目前的技术水平，更接近使用VGG-16的原始R-CNN，见表3。与最接近的竞争对手相比，我们的系统对小对象进行斗争。在瓶子、绵羊和电视/监视器等类别上，YOLO比R-CNN或Feature Edit低8-10%。然而，在其他类别，如猫和火车YOLO获得更高的性能。
我们的组合快速R-CNN+YOLO模型是最高性能的检测方法之一。快速R-CNN从与YOLO的结合中获得了2.3%的改善，提高了它在公共排行榜上的5个位置。
4.5。概括性：艺术品中的人物检测
用于对象检测的学术数据集从相同的分布提取训练和测试数据。在现实世界的应用程序中，很难预测所有可能的用例，并且测试数据可能与系统之前看到的不同[3]。我们将YOLO与毕加索数据集[12]和人文艺术数据集[3]上的其他检测系统进行比较，这两个数据集用于测试艺术品上的人物检测。
图5显示了YOLO和其他检测方法之间的比较性能。作为参考，我们给出了VOC 2007检测AP的人员，其中所有模型只训练VOC 2007数据。毕加索的模特接受VOC 2012的训练，而人物艺术则接受VOC 2010的训练。
R-CNN在2007年VOC上有很高的点击率。然而，R-CNN在应用于艺术品时显著下降。R-CNN使用选择性搜索来搜索针对自然图像的边界框建议。R-CNN中的分类器步骤只能看到小的区域，需要好的建议。
DPM在应用于艺术品时很好地保持了其AP。先前的工作认为DPM性能良好，因为它具有强大的对象形状和布局的空间模型。虽然DPM的降级不如R-CNN，但它从较低的AP开始。
YOLO在VOC 2007上具有良好的性能，在应用于艺术品时，其AP的降级小于其他方法。与DPM一样，YOLO建模对象的大小和形状，以及对象之间的关系和对象通常出现的位置。艺术品和自然图像在像素级上是非常不同的，但是它们在物体的大小和形状方面是相似的，因此YOLO仍然可以预测好的边界框和检测。
5。野外实时检测
YOLO是一种快速、准确的物体检测器，非常适合计算机视觉应用。我们将YOLO连接到一个网络摄像头，并验证它保持了实时性能，包括从摄像机获取图像和显示检测的时间。
所得到的系统是交互式的，并且具有吸引力。当YOLO单独处理图像时，当连接到网络摄像机上时，它像跟踪系统一样工作，在物体移动和外观变化时检测它们。该系统的演示和源代码可以在我们的项目网站上找到：http://pjred..com/yolo/。

6。结论
我们介绍了用于对象检测的统一模型YOLO。我们的模型构造简单，可以直接对全图像进行训练。与基于分类器的方法不同，YOLO基于与检测性能直接对应的损失函数进行训练，并且整个模型被联合训练。
快速YOLO是文献中最快的通用对象检测器，它推动了实时对象检测的发展。YOLO还很好地推广到新的领域，使其成为依赖于快速、健壮的对象检测的应用程序的理想选择。
感谢：这项工作部分得到ONR N00014-13-1-0720、NSF IIS-1338054和艾伦杰出调查者奖的支持。

References
[1] M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision– ECCV 2008, pages 2–15. Springer, 2008. 4
[2] L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In international Conference on Computer Vision (ICCV), 2009. 8
[3] H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction problem: Computer vision algorithms for recognising objects in artwork and in photographs. arXiv preprint arXiv:1505.00110, 2015. 7
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 4, 8
[5] T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013. 5
[6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprint arXiv:1310.1531, 2013. 4
[7] J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014. 7
[8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014. 5, 6
[9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015. 2
[10] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010. 1, 4
[11] S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR, abs/1505.01749, 2015. 7
[12] S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014 Workshops, pages 101–116. Springer, 2014. 7
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE, 2014. 1, 4, 7
[14] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. 2, 5, 6, 7
[15] S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009. 4
[16] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul- taneous detection and segmentation. In Computer Vision– ECCV 2014, pages 297–312. Springer, 2014. 7
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014. 5
[18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. 4
[19] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012. 6
[20] K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprint arXiv:1506.06981, 2015. 5, 6
[21] R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1, pages I–900. IEEE, 2002. 4
[22] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013. 2
[23] D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999. 4
[24] D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/ Models-accuracy-on-ImageNet-2012-val. Accessed: 2015-10-2. 3
[25] C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE, 1998. 4
[26] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 3
[27] J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014. 5
[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. rXiv preprint arXiv:1506.01497, 2015. 5, 6, 7
[29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015. 3, 7
[30] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 3
[31] M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–69. Springer, 2014. 5, 6
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013. 4, 5
[33] Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911, 2014. 7
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 2
[35] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013. 4
[36] P. Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001. 4
[37] P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154, 2004. 5
[38] J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014. 5, 6
[39] C. L. Zitnick and P. Dollar. Edge boxes: Locating object pro- ´ posals from edges. In Computer Vision–ECCV 2014, pages 391–405. Springer, 2014. 4

只查看一次：统一、实时的对象检测

猜你喜欢