你只需看一次：统一的实时目标检测

Joseph Redmon∗, Santosh Divvala∗†, Ross Girshick¶, Ali Farhadi∗†
University of Washington∗, Allen Institute for AI†, Facebook AI Research

摘要

我们介绍了一种新的目标检测方法：YOLO。之前关于目标检测的工作重新利用分类器来执行检测。相反，我们将目标检测视为一个回归问题，即空间分离的边界框（bounding boxes）和相关的类概率。在一次评估中，一个单一的神经网络的预测边界框和类概率直接来自完整的图像。由于整个检测通道是一个单一的网络，因此可以直接对检测性能进行端到端优化。

我们的统一架构非常快。我们的base YOLO模型以每秒45帧的速度实时处理图像。该网络的一个较小版本：Fast YOLO，每秒处理155帧，速度惊人，同时仍实现了其他实时检测器的两倍mAP（mAP，其中代表P（Precision）精确率。AP（Average Precision）单类标签平均（各个召回率中最大精确率的平均数）的精确率，mAP(Mean Average Precision)所有类标签的平均精确率）。与最先进的检测系统相比，YOLO会产生更多的定位错误，但不太可能在背景中预测false positive（false positive简称FP，即被判定为正样本，但事实上是负样本）。最后，YOLO是学习目标检测常用的的方法。当从自然图像推广到例如艺术品等其他领域时，它的性能优于其他检测方法，包括DPM和R-CNN。

1.导言

人类瞥一眼图像，立刻就能知道图像中的物体是什么，它们在哪里，以及它们是如何相互作用的。人类的视觉系统快速而准确，使我们能够在几乎没有意识的情况下完成复杂的任务，比如开车。快速、准确的目标检测算法将使计算机能够在没有专门的传感器的情况下驾驶汽车，使辅助设备能够向用户传递实时场景信息，并为通用、响应性的机器人系统拓展方向。

当前的检测系统重新利用分类器来执行检测。为了检测一个物体，这些系统对该物体进行分类，并在测试图像中的不同位置和比例对其进行评估。像可变形零件模型（DPM）这样的系统使用滑动窗口方法，其中分类器在整个图像上以均匀间隔的位置运行[10]。

在这里插入图片描述

图1：YOLO检测系统。用YOLO处理图像既简单又直接。我们的系统（1）将输入图像的大小调整为448×448，（2）在图像上运行单个卷积网络，（3）根据模型的置信度设置阈值来进行结果检测。

最近的一些方法，如R - CNN使用候选区域（region proposal）方法，首先在一个范围内生成可能的边界框，然后在这些边界框上运行分类器。分类后，通过后处理细边界框，消除重复检测，并根据场景中其他对象对框进行重新评分[13]。这些复杂的通道是缓慢和难以优化的，因为每个部分必须单独训练。

我们将目标检测重新定义为一个单一的回归问题，直接从图像像素到边界框坐标和类概率。使用我们的系统，你只需看一次（YOLO）图像就可以预测出物体的位置。

YOLO非常简单：见图1。单个卷积网络同时预测多个边界框和这些框的类概率。YOLO对完整图像进行训练，并直接优化检测性能。与传统的目标检测方法相比，这种统一的模型有几个优点。

第一，YOLO速度非常快。因为我们把检测作为一个回归问题，所以不需要复杂的通道。我们只需在测试时在新图像上运行神经网络，以预测检测结果。我们的基本网络以每秒45帧的速度运行，在Titan X GPU上没有批处理，而快速版本的运行速度超过150 fps。这意味着我们可以在不到25毫秒的延迟时间内实时处理流媒体视频。此外，YOLO的平均精度是其他实时系统的两倍多。有关我们的系统在网络摄像头上实时运行的演示，请参见我们的项目网页：http://pjreddie.com/yolo/。

第二，YOLO在做预测时会对图像进行全局性的推理。与滑动窗口和基于候选区域的技术不同，YOLO在训练和测试期间看到整个图像，因此它隐式地编码有关类及其外观的上下文信息。Fast R-CNN是一种顶级检测方法[14]，它会将图像中的背景补丁误认为是物体，因为它看不到更大的背景。与Fsast R-CNN相比，YOLO的背景错误识别不到一半。

第三，YOLO学习对象的可概括表示。当它在自然图像上进行训练，并在艺术品上进行测试时，YOLO的表现远远优于DPM和R-CNN等顶级检测方法。由于YOLO具有高度的通用性，因此当应用于新域或意外输入时，它不太可能崩溃。

YOLO在精确度上仍然落后于最先进的检测系统。虽然它可以快速识别图像中的物体，但它很难精确定位某些物体，尤其是小物体。我们在实验中进一步研究了这些权重。

我们所有的训练和测试代码都是开源的。还可以下载各种预训练模型。

2.统一检测

我们将目标检测的各个部分统一到单一的神经网络中。我们的网络使用整个图像的特征来预测每个边界框。它还可以同时预测图像的所有类的所有边界框。这意味着我们的网络会对整个图像和图像中的所有对象进行全局推理。YOLO设计可实现端到端训练和实时速度，同时保持较高的平均精度。

我们的图像输入系统分为一个S×S的网格。如果物体的中心落入网格单元，该网格单元负责检测该物体。

每个网格单元预测B个边界框和这些框的置信度分数。这些置信度分数反映了模型对边界框包含对象的置信度，以及它认为边界框预测的准确性。我们正式定义了置信度：。如果该单元格中不存在任何对象，则置信度得分应为零。否则，我们希望置信度得分等于预测框和基本事实之间的交并比（IOU）。

每个边界框由5个预测组成：x、y、w、h和置信度。（x，y）坐标表示长方体相对于网格单元边界的中心。宽度和高度相对于整个图像进行预测。最后，置信度预测表示预测框和任何地面真值框之间的IOU。

每个网格单元还预测C条件类概率Pr ( Classi | Object )。这些概率是在包含对象的网格单元上条件的。我们只预测每一个网格单元的一组类概率，而不管B个边界框的数目。在测试时，我们将条件类概率关系和个体框置信度预测相乘。

这给了我们每个边界框的特定类别的置信度分数。这些分数对该类出现在框中的概率以及预测框与对象的匹配程度进行编码。
在这里插入图片描述

图2：模型。我们的系统将检测建模为回归问题。它将图像分为S×S个网格，并为每个网格单元预测边界框、这些框的置信度和类别概率。这些预测被编码为S×S×（B*5+C）张量。

为了在PASCAL VOC上评估YOLO，我们使用S=7，B=2。PASCAL VOC有20个标记类，所以C=20。我们最终的预测是7×7×30张量。

2.1网络设计

我们将该模型实现为一个卷积神经网络，并在PASCAL VOC检测数据集上对其进行评估[9]。网络的初始卷积层从图像中提取特征，而完全连接的层预测输出概率和坐标。

我们的网络架构受到了用于图像分类的GoogLeNet模型的启发[34]。我们的网络有24个卷积层，后面是两个完全连接的层。与GoogLeNet使用的初始模块不同，我们只使用1×1的还原层，然后是3×3的协同进化层，类似于Lin等人[22]。完整的网络如图3所示。

我们还训练了YOLO的快速版本，旨在推动快速目标检测的界限。Fast YOLO使用的神经网络具有较少的卷积层（9层而不是24层）和较少的滤波器。除了网络的大小之外，YOLO和Fast YOLO之间的所有训练和测试参数都是相同的。

在这里插入图片描述

图3：架构。我们的检测网络由24个卷积层和2个完全连接的层组成。交替的1×1卷积层减少了前一层的特征空间。我们在ImageNet分类任务中以一半的分辨率（224×224输入图像）预训练卷积层，然后将检测分辨率提高一倍。

我们网络的最终输出是预测的7×7×30张量。

2.2训练

我们在ImageNet 1000类竞争数据集上预训练卷积层[30]。对于预训练，我们使用图3中的前20个卷积层，然后是平均池层和完全连接层。我们对该网络进行了大约一周的训练，并在ImageNet 2012验证集上实现了88%的single crop top-5精度，与Caffe Model Zoo中的GoogLeNet模型相当[24]。我们使用Darknet进行所有的训练和推理[26]。

然后，我们将模型来进行检测。Ren等人证明，在预训练网络中添加卷积层和连接层可以提高性能[29]。按照他们的例子，我们添加了四个卷积层和两个具有随机初始化权重的全连接层。检测通常需要细粒度的视觉信息，因此我们将网络的输入分辨率从224×224提高到448×448。

最后一层预测类概率和边界框坐标。我们通过图像的宽度和高度来规范化边界框的宽度和高度，使其介于0和1之间。我们将边界框X和Y坐标参数化为特定网格单元位置的偏移量，因此它们的边界也在0和1之间。

我们对最后一层使用线性激活函数，所有其他层使用以下泄漏校正线性激活：
在这里插入图片描述

我们优化了模型输出的平方和误差。我们使用平方和误差，因为它很容易优化，但它并不完全符合我们最大化平均精度的目标。它将定位误差与可能不理想的分类误差相等地加权。此外，在每幅图像中，许多网格单元不包含任何对象。这会将这些单元格的“confidence”分数趋向零，通常会超过包含对象的单元格的梯度。这可能会导致模型不稳定，导致训练在早期出现偏离。

为了解决这个问题，我们增加了边界框坐标预测的损失，并减少了不包含对象的框的置信度预测的损失。我们使用两个参数λcoord和λnoobj来实现这一点。我们设置λcoord=5和λnoobj=.5。

平方和误差在大框和小框中也同样加权误差。我们的误差度量应该反映大框中的小偏差比小框中的小偏差更重要。为了部分解决这个问题，我们预测了边界框宽度和高度的平方根，而不是直接预测宽度和高度。

YOLO预测每个网格单元有多个边界框。在训练时，我们只希望一个边界框预测器对每个对象负责。我们指定一个预测器来“responsible”预测一个对象，基于该对象的预测具有最高的当前的真实情况的IOU。这导致了边界框预测器之间的专门化。每个预测器在预测特定尺寸、长宽比或对象类别方面都会更好，从而提高整体召回率。

在训练期间，我们优化了以下的损失函数部分：
在这里插入图片描述

其中表示对象是否出现在单元网格i中，表示在i网格中的第j个边界框预测器“负责”该预测。

请注意，如果网格单元中存在对象，损失函数只会惩罚分类错误（因此前面讨论了条件类概率）。如果预测器“负责”真实框（即，在该网格单元中的任何预测器中，具有最高的IOU），它也只惩罚边界框坐标错误。

我们根据PASCAL VOC 2007和2012的训练和验证数据集，对网络进行了大约135个epochs的训练。2012年测试时，我们还包括VOC 2007测试数据，用于训练。在整个训练过程中，我们使用64个batch size，momentum为0.9，衰减为0.0005。

我们的学习率安排如下：在第一个epochs，我们慢慢地将学习率从10−3到10−2。如果我们以高学习率开始学习，我们的模型往往会因不稳定的梯度而偏离。我们继续用10-2学习率训练75个epochs，然后用10−30学习率训练30个epochs，最后使用10−30训练30个epochs。

为了避免过度拟合，我们使用了 dropout和广泛的数据扩充（extensive data augmentation）。dropout层速率为0.5，在第一个连接层之后，防止层之间的相互适应[18]。对于数据增强，我们引入了原始图像大小的20%进行随机缩放和平移。在HSV颜色空间中，我们还将图像的曝光和饱和度随机调整到1.5。

2.3推理

就像在训练中一样，预测测试图像的检测只需要一次网络评估。在PASCAL VOC上，网络预测每个图像有98个边界框，每个框有类概率。与基于分类器的方法不同，YOLO在测试时速度非常快，因为它只需要一次网络评估。

网格设计在边界框预测中加强了空间多样性。通常情况下，很清楚一个对象属于哪个网格单元，网络只预测每个对象的一个方框。然而，一些大型对象或多个单元边界附近的对象可以被多个单元很好地定位。非极大值抑制可用于修复这些多个检测。虽然不像R-CNN或DPM那样对性能至关重要，但非极大值抑制在mAP中增加了23%。

2.4 YOLO的局限性

YOLO对边界框预测施加了强大的空间约束，因为每个网格单元只能预测两个框，并且只能有一个类。这种空间限制限制了我们的模型可以预测的附近物体的数量。我们的模型难以处理成群出现的小对象，例如成群的鸟。

由于我们的模型从数据中学习预测边界框，因此很难将其推广到具有新的或不寻常的长宽比或配置的对象。我们的模型还使用相对粗糙的特征来预测边界框，因为我们的架构从输入图像中有多个下采样层。

最后，当我们训练一个近似检测性能的损失函数时，我们的损失函数在小边界框和大边界框中处理错误的方式是相同的。大框中的小错误通常是良性的，但小框中的小错误对IOU的影响要大得多。我们的主要错误来源是错误的定位。

3.与其他检测系统的比较

目标检测是计算机视觉中的一个核心问题。检测通道一般从输入图像中提取一组鲁棒特征( Haar[25] 、SIFT[23]、HOG[4]、卷积特征[6])开始。然后，使用分类器[36、21、13、10]或定位器[1,32 ]来识别特征空间中的对象。这些分类器或定位器要么在整个图像时代以滑动窗口的方式运行，要么在图像的某些区域子集上运行[35,15,39 ]。我们将YOLO检测系统与几种顶级检测框架进行了比较，突出了关键的异同点。

可变形零件模型。可变形零件模型（DPM）使用滑动窗口方法进行对象检测[10]。DPM使用不相交的通道来提取静态特征、分类区域、预测高分区域的边界框等。我们的系统用一个卷积神经网络替换所有这些不同的部分。该网络同时执行特征提取、边界框预测、非极大值抑制和上下文推理。网络不是静态特征，而是在线训练特征，并为检测任务优化它们。与DPM相比，我们的统一架构带来了更快、更精确的模型。

R-CNN。R-CNN及其变种使用候选区域（region proposals）而不是滑动窗口来查找对象图像。选择性搜索（Selective Search）[35]生成潜在的边界框，卷积网络提取特征，支持向量机（SVM）预测框打分，线性模型调整边界框，非最大值抑制消除重复检测。这个复杂通道的每一个阶段都必须独立地进行精确调整，结果系统检测速度非常缓慢，在测试时每张图像需要40秒以上[14]。

YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框，并使用卷积特征对这些框进行评分。然而，我们的系统对网格单元方案施加了空间限制，这有助于减少对同一对象的多次检测。我们的系统还提出了少得多的边界框，每个图像只有98个，相比之下，选择性搜索大约有2000个。最后，我们的系统将这些单独的组件组合成一个单独的、联合优化的模型。

其他快速检测器。Fast R-CNN 和Faster R-CNN专注于通过共享计算和使用神经网络候选区域而不是选择性搜索来加速R-CNN框架的检测速度[14][28]。虽然与R-CNN相比，它们在速度和准确性上都有所提高，但它们的实时性能仍不尽如人意。

许多研究工作集中在加速DPM通道[31][38][5]。他们加快了HOG计算，使用级联，并将计算推送到GPU。然而，只有30Hz DPM[31]能够实时运行。

YOLO没有尝试优化大型检测通道的单个组件，而是完全抛弃了通道，而且设计速度很快。人脸或人等单一类别的检测器可以进行高度优化，因为它们必须处理的变化要小得多[37]。YOLO是一种通用检测器，可以同时检测多种物体。

Deep MultiBox。与R-CNN不同，Szegedy等人训练卷积神经网络来预测感兴趣的区域（RoI）[8]，而不是使用选择性搜索。MultiBox还可以通过将置信度预测替换为单类预测来执行单目标检测。然而，MultiBox无法执行一般的目标检测，仍然只是更大检测通道中的一部分，需要进一步的图像块分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框，但YOLO是一个完整的检测系统。

过拟合（OverFeat）。Sermanet等人训练卷积神经网络以定位，并调整该定位器以执行检测[32]。过拟合有效地执行滑动窗口检测，但它仍然是一个不相交的系统。过拟合优化了定位，而不是检测性能。与DPM一样，定位器在进行预测时只查看本地信息。OverFeat无法对全局上下文进行推理，因此需要大量的后处理来产生一致的检测。

MultiGrasp。我们的工作在设计上与Redmon等人的抓取检测工作类似[27]。我们的网格边界框预测方法基于MultiGrasp系统，用于回归抓取。然而，抓取检测比目标检测简单得多。MultiGrass只需要为包含一个对象的图像预测一个可抓取区域。它不需要估计物体的大小、位置或边界，也不需要预测物体的类别，只需要找到一个适合抓取的区域。YOLO预测图像中多个类的多个对象的边界框和类概率。

4.实验

首先，我们将YOLO与PASCAL VOC 2007上的其他实时检测系统进行比较。为了了解YOLO和R-CNN变种之间的差异，我们研究了YOLO和Fast R-CNN在VOC 2007上的错误，后者是R-CNN性能最高的版本之一[14]。基于不同的错误模式，我们表明YOLO可以用于重新存储Fast R-CNN检测，并减少背景误报带来的错误，从而显著提高性能。我们还介绍了VOC 2012的结果，并将mAP与当前最先进的方法进行了比较。最后，我们展示了YOLO在两个艺术作品数据集上比其他检测器更好地推广到新领域。

4.1与其他系统实时比较

在目标检测方面的许多研究工作都集中在快速实现标准检测通道上。[5] [38][31][14][17][28]然而，实际上只有Sadeghi等人生产了实时运行的检测系统（每秒30帧或更好）[31]。我们将YOLO与他们在GPU上实现的DPM进行了比较，DPM的运行频率为30Hz或100Hz。虽然其他努力没有达到实时里程碑，但我们也比较了它们的相对mAP和速度，以检查目标检测系统中可用的精度性能权衡。
在这里插入图片描述

表1：PASCAL VOC 2007上的实时系统。比较了快速检测器的性能和速度。快速YOLO是PASCAL VOC检测记录最快的检测器，仍然是其他实时检测器的两倍。YOLO比Fast版本大个10mAP，但速度仍远高于实时。

Fast YOLO是PASCAL上最快的目标检测方法；据我们所知，它是现存速度最快的物体检测器。52.7%的mAP，其准确度是之前实时检测工作的两倍多。YOLO把mAP推到63.4%，同时仍保持实时性能。

我们还使用VGG-16训练YOLO。这个模型更精确，但也比YOLO慢得多。与依赖VGG-16的其他检测系统相比，它很有用，但由于它比实时系统慢，本文的其余部分将重点介绍我们更快的模型。

最快的DPM在不牺牲太多mAP的情况下有效地提高了DPM的速度，但它仍然会错过2倍的实时性能[38]。与神经网络方法相比，DPM的检测精度相对较低，这也限制了它的应用。

R-CNN减去R将选择性搜索替换为静态边界框方案[20]。
虽然它比R-CNN快，但它仍然缺乏实时性，而且由于没有好的候选区域，它的准确性受到了很大的影响。

Fast R-CNN加速了R-CNN的分类阶段，但它仍然依赖于选择性搜索，每幅图像大约需要2秒来生成边界框候选。因此，它具有较高的mAP，但为0.5fps它还远远不是实时的。

最近更快的R-CNN用神经网络取代了选择性搜索，提出了边界框，类似于Szegedy等人[8]在我们的测试中，他们最精确的模型达到了7 fps，而更小、精度较低的模型达到了18 fps。VGG-16版本的Faster R-CNN比YOLO高10个mAP，但也慢6倍。ZeilerFergus的Faster R-CNN只有2 fps。比YOLO慢5倍，但精确度也较低。

4.2 VOC 2007错误分析

为了进一步研究YOLO和最先进的检测器之间的差异，我们查看了2007年VOC测试结果的详细分类。我们将YOLO与Fast RCNN进行了比较，因为Fast R-CNN是PASCAL上性能最高的检测器之一，而且它的检测数据是公开的。

我们使用Hoiem等人[19]的方法和工具，在测试时针对每个类别，我们查看该类别的前N个预测。每个预测要么正确，要么根据错误类型进行分类：

正确：正确的类别和IOU>.5
本地化：正确的类别，.1<IOU< .5
相似的：分类相似，IOU> .1
其他：类别错了，IOU>.1
背景：对于任何目标，IOU< .1

图4：错误分析：Fast R-CNN vs.YOLO这些图表显示了不同类别（N=#该类别中的对象）前N个检测中定位和背景错误的百分比。

图4显示了所有20个类中平均的每种错误类型的细分。

YOLO尽可能正确定位目标。相对于所有其他来源的总和，本地化错误在YOLO的错误中所占的比例更大。Fast R-CNN的定位错误要少得多，但背景错误要多得多。13.6%的顶级检测结果是不包含任何对象的误识别。Fast R-CNN预测背景检测的可能性几乎是YOLO的3倍。

4.3结合Fast R-CNN 和YOLO

YOLO犯的背景错误比Fast R-CNN少得多。通过使用YOLO消除Fast R-CNN的背景检测，我们在性能上得到了显著提升。对于R-CNN预测的每一个边界框，我们检查一下YOLO是否预测了一个类似的框。如果是这样的话，我们将根据YOLO预测的概率和两个框之间的重叠来提高预测。

在VOC 2007测试集中，最好的Fast R-CNN模型的mAP是71.8%。当与YOLO结合时，它的mAP增加3.2%至75.0%。我们还尝试将顶级Fast R-CNN模型与其他几个版本的Fast R-CNN相结合。这些组合产生了mAP之间的小幅度增长.3和.6%，详见表2。
在这里插入图片描述

表2:2007年VOC模型组合试验。我们研究了将各种模型与Fast R-CNN的最佳版本相结合的效果。其他版本的Fast R-CNN只提供了一点好处，而YOLO提供了显著的性能提升。

YOLO带来的提升不仅仅是模型整合的副产品，因为将不同版本的Fast R-CNN结合起来几乎没有什么好处。相反，正是因为YOLO在测试时犯了各种各样的错误，它才如此有效地提高了Fast R-CNN的性能。

不幸的是，这种组合并没有从YOLO的速度中受益，因为我们分别运行每个模型，然后组合结果。然而，由于YOLO速度如此之快，与快速R-CNN相比，它不会增加任何显著的计算时间。

4.4 VOC 2012 结果

在2012年的VOC测试中，YOLO获得57.9%的mAP。这低于目前的技术水平，更接近使用VGG-16的原始R-CNN，见表3。与最接近的竞争对手相比，我们的系统难以处理小对象。在瓶子、绵羊和电视/监控器等类别上，YOLO的得分比R-CNN或Feature Edit低8-10%。然而，在其他类别上，如cat 和 train YOLO的性能更高。
在这里插入图片描述
表3:PASCALVOC 2012年排行榜。YOLO与截至2015年11月6日的fullcomp4（允许外部数据）公开排行榜进行了比较。显示了各种检测方法的平均精度和每类平均精度。YOLO是唯一的实时检测器。Fast R-CNN YOLO是得分第四高的方法，得分为2.3%超过了Faster R-CNN。

4.5简述：艺术品中的人物检测

用于目标检测的学术数据集从相同的分布中提取训练和测试数据。在实际应用中，很难预测所有可能的用例，测试数据可能与系统之前看到的情况不同[3]。我们将YOLO与毕加索数据集[12]和人物艺术数据集[3]上的其他检测系统进行了比较，这两个数据集用于测试艺术品上的人物检测。

图5显示了YOLO和其他检测方法之间的比较性能。作为参考，我们给出了VOC 2007检测AP onPerson，其中所有模型仅根据VOC 2007数据进行训练。关于毕加索，模特们在VOC 2012上接受训练，而关于人物艺术，模特们在VOC 2010上接受训练。

R-CNN在2007年的VOC上有很高的AP。然而，当R-CNN应用于艺术品时，它会大幅下降。R-CNN使用选择性搜索边界框方案，该方案针对自然图像进行了调整。R-CNN中的分类器步骤只看到小区域，需要好的建议。

DPM在应用于艺术品时能很好地维护其AP。之前的工作理论上认为，DPM性能良好，因为它对对象的形状和布局具有强大的空间模型。虽然DPM的性能不如R-CNN，但它从较低的AP开始。

YOLO在VOC 2007上有很好的性能，其AP在用于艺术品时比其他方法降解更少。与DPM一样，YOLO对对象的大小和形状、对象之间的关系以及对象通常出现的位置进行建模。艺术品和自然图像在像素级别上非常不同，但它们在对象的大小和形状方面是相似的，因此YOLO仍然可以预测良好的边界框和检测。

在这里插入图片描述

（a） Picasso数据集精度-召回率曲线
（b） VOC 2007、Picasso和人物艺术数据集的定量结果。Picasso数据集根据AP和Best F1得分进行评估。

5.野外实时检测

YOLO是一种快速、准确的目标检测器，非常适合计算机视觉应用。我们将YOLO连接到网络摄像头，并验证其保持实时性能，包括从摄像头获取图像和显示检测结果的时间。

在这里插入图片描述
图6：定性结果。YOLO在网上的艺术作品和自然图像样本上运行。虽然它确实认为一个人是飞机，但它基本上是准确的。
由此产生的系统是互动的、引人入胜的。虽然YOLO单独处理图像，但当连接到网络摄像头时，它的功能就像一个跟踪系统，在物体移动和外观变化时检测它们。该系统的演示和源代码可在我们的项目网站上找到：http://pjreddie.com/yolo/。

6.结论

我们介绍了YOLO，一个用于目标检测的统一模型。我们的模型构造简单，可以直接在完整图像上进行训练。与基于分类器的方法不同，YOLO是基于直接对应于检测性能的损失函数进行训练的，整个模型是同步训练的。

Fast YOLO是文献中速度最快的通用目标检测器，YOLO推动了实时目标检测技术的发展。YOLO还可以很好地推广到新的领域，这使得它非常适合依赖于快速、鲁棒性好的对象检测的应用。

致谢：这项工作得到了ONR N00014-13-1-0720、NSF IIS-1338054和艾伦杰出研究员奖的部分支持。

参考文献

[1]M. B. Blaschko and C. H. Lampert. Learning to localize ob-jects with structured output regression. InComputer Vision–ECCV 2008, pages 2–15. Springer, 2008.4
[2]L. Bourdev and J. Malik. Poselets: Body part detectorstrained using 3d human pose annotations. InInternationalConference on Computer Vision (ICCV), 2009.8
[3]H. Cai, Q. Wu, T. Corradi, and P . Hall. The cross-depiction problem: Computer vision algorithms for recognising objects in artwork and in photographs.arXiv preprint arXiv:1505.00110, 2015.7
[4]N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. InComputer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005.4,8
[5]T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijaya narasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013.5
[6]J. Donahue, Y . Jia, O. Vinyals, J. Hoffman, N. Zhang, E. T zeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition.arXiv preprint arXiv:1310.1531, 2013.4
[7]J. Dong, Q. Chen, S. Yan, and A. Y uille. Towards unified object detection and semantic segmentation. InComputer Vision–ECCV 2014, pages 299–314. Springer, 2014.7
[8]D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. InComputer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014.5,6
[9]M. Everingham, S. M. A. Eslami, L. V an Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective.International Journal of Computer Vision, 111(1):98–136, Jan. 2015.2
[10]P . F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models.IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010.1,4
[11]S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model.CoRR, abs/1505.01749, 2015.7
[12]S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014 Workshops, pages 101–116. Springer, 2014.7
[13]R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. InComputer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE,2014.1,4,7
[14]R. B. Girshick. Fast R-CNN.CoRR, abs/1504.08083, 2015.2,5,6,7
[15]S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009.4
[16]B. Hariharan, P . Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. InComputer Vision ECCV 2014, pages 297–312. Springer, 2014.7
[17]K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition.arXiv preprint arXiv:1406.4729, 2014.5
[18]G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors.arXiv preprint arXiv:1207.0580, 2012.4
[19]D. Hoiem, Y . Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. InComputer Vision–ECCV 2012, pages 340–353. Springer, 2012.6
[20]K. Lenc and A. V edaldi. R-cnn minus r.arXiv preprint arXiv:1506.06981, 2015.5,6
[21]R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. InImage Processing. 2002. Proceedings. 2002 International Conference on, volume 1, pages I–900. IEEE, 2002.4
[22]M. Lin, Q. Chen, and S. Yan. Network in network.CoRR, abs/1312.4400, 2013.2
[23]D. G. Lowe. Object recognition from local scale-invariant features. InComputer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999.4
[24]D. Mishkin. Models accuracy on imagenet 2012 val.https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val. Accessed: 2015-10-2.3
[25]C. P . Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. InComputer vision, 1998. sixth international conference on, pages 555–562. IEEE, 1998.4
[26]J. Redmon. Darknet: Open source neural networks in c.http://pjreddie.com/darknet/, 2013–2016.3
[27]J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks.CoRR, abs/1412.3128, 2014.5
[28]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks.arXiv preprint arXiv:1506.01497, 2015.5,6,7
[29]S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps.CoRR, abs/1504.06066, 2015.3,7
[30]O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge.International Journal of Computer Vision (IJCV), 2015.3
[31]M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. InComputer Vision–ECCV 2014, pages 65–79. Springer, 2014.5,6
[32]P . Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y . LeCun. Overfeat:Integrated recognition, localization and detection using convolutional networks.CoRR, abs/1312.6229, 2013.4,5
[33]Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection.arXiv preprint arXiv:1409.6911,2014.7
[34]C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov, D. Erhan, V . V anhoucke, and A. Rabinovich. Going deeper with convolutions.CoRR, abs/1409.4842,2014.2
[35]J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition.International journal of computer vision, 104(2):154–171, 2013.4
[36]P . Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001.4
[37]P . Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154, 2004.5
[38]J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. InComputer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014.5,6
[39]C. L. Zitnick and P . Dollár. Edge boxes: Locating object proposals from edges. InComputer Vision–ECCV 2014, pages 391–405. Springer, 2014.4

原文链接：You Only Look Once: Unified, Real-Time Object Detection
<!-- >

YOLOv1中文翻译(逐句翻译)

你只需看一次：统一的实时目标检测

摘要

1.导言

2.统一检测

2.1网络设计

2.2训练

2.3推理

2.4 YOLO的局限性

3.与其他检测系统的比较

4.实验

4.1与其他系统实时比较

4.2 VOC 2007错误分析

4.3结合Fast R-CNN 和YOLO

4.4 VOC 2012 结果

4.5简述：艺术品中的人物检测

5.野外实时检测

6.结论

参考文献

猜你喜欢