论文链接：https://arxiv.org/pdf/1506.02640.pdf

You Only Look Once: Unified, Real-Time Object Detection

Abstract 摘要

我们提出了一种新的目标检测方法——YOLO。以前主要是通过调整修改分类方法实现检测的目的。与之不同的是，我们把目标检测看做是空间独立的边界框以及该框中可能包含物体类别可能性的回归问题。使用一个神经网络在一次估计中就可以直接预测出一整张图片中的边界框和类别的可能性或者叫概率。因为整个检测流程是单一网络，所以可以直接对检测性能进行端到端的优化。

我们一体化的架构运行速度非常快。我们基础版本的YOLO模型可以以45fps的速度实时的处理图片。简化版本的网络——Fast YOLO，处理速度可以达到惊人的155fps，同时mAP仍然能够达到其他实时检测器的两倍。与目前最好的检测系统相比，YOLO有更多的定位错误，但是预测背景框上假的正样本(把不是物体的预测成物体)的情况会少一些。最终，YOLO学习了非常通用的物体特征。当从自然图片泛化到其他领域(例如艺术领域)，它表现超过了其他的检测方法(包括DPM和R-CNN)。

1. Introduction 介绍

人们只要看一眼图片就立马知道图片中有哪些物体，这些物体的位置以及他们是怎么互动的。人类的视觉系统反应非常迅速且准确，这使人们在几乎无意识思考的情况下可以执行复杂的任务，例如开车。快速并且准确的目标检测算法可以使计算机在没有专业传感器的情况下驾驶汽车，可以使辅助设备(指专门为残疾人设计的)向人类用力实时的传递周围环境信息，并且释放通用、反应迅速机器人系统的。

当前的检测系统是通过修改分类系统来实现检测的。为了检测一个目标，这些系统会使用一个该类别的分类器对一张图片中的不同位置和尺度进行评估。像DPM(deformable parts models)系统，就是在整张图片上使用均匀间隔的滑动窗口的方式获取一个目的窗口，然后将该窗口作为分类器的输入[10]。

更近一些的方法，例如R-CNN，使用获选区域的方法：首先为一张图片生成潜在的边界框，然后在对这些边界框进行分类。分类后的处理是对边界框进行微调，去掉重复的检测，基于场景中其他目标对框进行重新评分[13]。这个复杂的流程执行非常慢而且很难进行优化，因为每一个独立的组件都需要单独进行训练。

我们将目标检测重新定义为一个单一的回归问题，直接从图片的像素到边界框的坐标和类别的概率(个人理解:不需要通过前面提到的滑动窗口或者候选区域先生成一个框,然后对框进行回归和打分)。使用我们的系统你只需要看图片一次(YOLO)就可以预测出图片中包含哪些目标以及他们的位置。

在这里插入图片描述 YOLO的简单使人眼前一亮：见图一。一个神经网络可以同时预测多个边界框以及这些边界框的类别概率。YOLO使用整张图片进行训练，并且可以直接优化检测性能(这个应该是针对R-CNN这种多组件算法来讲的)。与传统的目标检测方法相比，这种统一的模型有许多优点。

第一，YOLO的执行速度非常快。因为我们把检测看做一个回归问题所以不需要一个复杂的流程来达到检测目的。我们只是在测试时使用我们的神经网络对一个新图片进行检测获取预测的结果。在Titan X GPU上面不需要批处理的情况下我们基础版本网络的处理速度为45fps，速度版的可以达到150fps以上。这就意味着我们可以以低于25ms的延迟来实时处理视频流。此外，YOLO的mAP可以达到其他实时系统的两倍以上。可以在http://pjreddie.com/yolo/查看我们在网络摄像头上实时运行我们系统的样例代码。

第二，YOLO在预测时会从整体上去理解图片的内容。与滑动窗口和基于候选区域的技术实现不同，YOLO在训练和测试的时候可以看到整张图片，所以可以对类别的上下文信息和外观进行隐式的编码。Faster R-CNN[14]，最好的检测方法，由于看不到大的上下文信息，它会将图像中的背景块误认为是物体。与Faster R-CNN相比这种错误的数量YOLO少了一半以上。

第三，YOLO学习了目标的通用表达方式。如果在自然图片上进行训练然后在艺术作品上尽心测试，YOLO的表现远远优于DPM和R-CNN等顶级检测方法。因为YOLO具有很好的泛化性能，因此应用到新的领域或者非法输入时出问题的概率比较小。

YOLO在精度上仍然落后与最先进的检测系统。当它快速的识别出一张图片中的物体时，很难定位一些目标的准确位置尤其是小物体。我们在实验中进一步研究了怎么权衡这些问题。

我们所有的训练和测试代码都是开源的。也可以下载多种预训练的模型。

2.Unified Detection 一体检测

我们将目标检测的各个部分统一到一个神经网络中。我的网络使用整张图片的特征来预测每一个边界框。还可以同时预测一张图片中所有类别的所有边界框。这就意味着我们的网络对整张图片和图片中的所有对象进行全局的推理。YOLO的设计可以实现端到端的训练，在保持高平均精度的情况下也能达到实时的检测速度。

我们的系统将输入的图片分成SxS的网格。如果一个物体的中心点在某一个网格内，那么这个网络就负责该物体的检测。(也就是label和网格绑定)

每个网格会预测B个边界框和这些边界框的置信度得分。这个置信度得分反应了模型对该框中含有一个物体的置信度和预测框的准确度。我们将置信度定位为Pr(Object) ∗ IOU^truth_pred。如果网格中一个物体也没有(也就是说Pr为0)，那么置信度得分应该为0。否则(有物体时Pr为1)，我们希望置信度得分等于预测框和真值框的IOU。

每一个边界框有五个预测值：x，y，w，h和置信度。(x,y)表示边界框中心点相对于单元格边界的坐标。宽和高是相对于整张图片的预测值。最后，预测的置信度是预测框和真值框的IOU。

每个网格还会预测C个类别的条件概率——Pr(Class_i |Object)。这写概率是以网格中含有物体为前提条件的概率。不管预测框的数量是多少，每个单元格我们只预测一组类别的概率。

在测试时我们把类别的条件概率和每个框预测的置信度相乘，这样就得到了每个框指定类别的置信度得分。这些分数是对该类出现在框中的概率和预测框与对象的匹配程度进行编码得到的(一个分数既体现了概率又体现了匹配程度)。
在这里插入图片描述
使用Pascal VOC对YOLO进行评估时,我们S取7,B取2。Pascal VOC有20个类别，所以C=20。我们最终预测结果是一个7x7x30的张量。

2.1 Network Design

我们将该模型实现为一个卷积神经网络，并在P ASCAL VOC检测数据集上进行了评估[9]。网络初始的卷积层从图像中提取特征，而全连接层预测输出概率和坐标。

我们的网络结构受到了图片分类网络GoogLeNet[34]的启发。我们的网络有24个卷积层,后面跟了2个全连接层。不同的是YOLO没有使用GoogLeNet中的inception module，我们只是在3x3的卷积层前面使用1x1的卷积层来降低通道数，与Lin等人使用方法类似[22]。整个网络结构见图3。

我们还训练了一个快速版本的YOLO，旨在提高目标检测速度的上限。速度版本的YOLO的神经网络使用了更少的卷积层(9层而不是原始版本的24层)及这些卷积层中更少的过滤器。除了网络的大小，标准版YOLO和速度版YOLO的所有训练和测试参数都是相同的。

网络的输出是一个7x7x30的预测张量。
在这里插入图片描述

2.2 Training

我们使用ImageNet 1000分类的竞赛数据集[30]对卷积层进行预训练。为了预训练我们使用图三中的前二十个卷积层，后面跟一个平均池化层和一个全连接层。我们将网络训练了大约一周，并且在ImageNet 2012的验证集上单一类别的top-5精度达到88%，与Caffe Model Zoo中的GoogLeNet模型[24]的精度差不多。所有的训练和推理我们都使用Darknet的框架[26]。

然后我们使用模型来执行检测任务。Ren等人证明给预训练的网络加上卷积层和连接层可以提高检测的精度[29]。按照他们的例子，我们添加了4个卷积层和2个全连接层，他们的权重采用的随机初始化。检测通常需要详细的视觉信息，所以我们把网络的输入像素由224x224提升为448x448。

网络的最后一层会同时预测类别概率和边界框坐标。我们使用图片的宽和高对边界框的宽和高进行归一化，使他们的取值在0和1之间。我们把边界框的坐标x，y参数化为某个特定网格单元的偏移，因此他们的值也在0和1之间。

我们在最后一层使用了线性激活函数，其他层使用了leaky ReLU激活函数，如下所示：
在这里插入图片描述
我们对模型输出的SSE(sum-squared error，误差平方和)进行了优化。我们使用SSE是因为它容易进行优化，但是它不能与我们最大化平均精度的目标相契合。位置误差与分类误差的权重相等，这样可能不是个理想的选择。而且，在任意图片中都会有很多网格不包含任何的物体。这样就会将这些单元的置信度得分趋向0，通常会超过包含物体单元格的梯度。这样会导致模型不稳定，导致训练在早期就会发散。

为了修正该问题，我们提高了预测边界框坐标loss的权重，降低了不包含物体的框的置信度预测loss的权重。我们使用两个参数λ_coord和λ_noobj来实现。我们取λ_coord=5，λ_noobj=0.5。

SSE同样平等的对待大框的误差和小框的误差。我们的误差指标要能够反映出小框出现的小的偏差比大框的更重要。为了部分解决该问题，我们预测的是边界框的平方根，而不是直接预测边界框的宽和高。

YOLO为每一个网格单元预测了多个边界框。在训练的时候我们希望一个物体只对应一个边界框。根据哪个预测框与真值框的IOU最高，就把哪个预测出的框作为该物体的预测框。这就需要预测框的专用化。每个预测器都能更好地预测特定的大小、长宽比或对象的类别，从而提高整体召回率(recall)。

在训练过程中我们对下面多个部分组成的loss函数进行优化：
在这里插入图片描述
这里1^obj_i表示的是在第i个单元中是否有物体存在,1^obj_ij表示第i个单元中的边界框预测器负责该单元的预测。

注意当网格单元中有物体时损失函数只惩罚分类的错误(因此前面讨论了条件类别概率)。同样如果该预测器负责该单元真值框(即在该网格单元中的任意预测器与真值框拥有最大的IOU)的预测的话它只惩罚边界框的坐标错误。

我们使用PASCAL VOC 2007和2012的训练集和验证集对网络训练了135个epoch。我们使用2012进行测试，VOC2007的测试集用来进行训练。整个训练过程，我们取batch size为64，momentum为0.9，decay为0.0005。

我们的学习率变化如下：第一个epoch我们将学习率慢慢的从10^-3提高到10^-2。如果我们一开始就用大的学习率会使梯度不稳定从而时模型不收敛。我们继续使用10^-2训练75个epoch，然后用10^-3训练30个epoch，最后用10^-4训练30个epoch。

为了避免过拟合我们使用了dropout和许多哦数据增强。在第一个连接层后增加了一个丢弃率为0.5的dropout层，来防止层与层之间相互适应[18] (防止层与层之间的参数针对固定类型会固化)。对于数据增强，我们引入了高达原始图像大小20%的随机缩放和平移。我们还可以在HSV颜色空间中随机调整图像的曝光和饱和度，最多调整1.5倍。

2.3 Inference （推理）

与训练一样，对一张测试图片进行检测只需要一个网络来完成。使用PASCAL VOC数据集，网络为每个图片预测98个框及每个框的类别概率。与基于分类网络的方法不同，由于YOLO只需要一个网络进行评估，因此它的测试速度非常快。

网格设计在预测边界框时增强了空间差异，使预测的框更加分散一些。通常能够很清楚的看到物体落在了哪个网格单元中，网络为每个物体预测一个框。但是，一些大的物体或者在多个网格单元边界的物体可以通过多个单元很好的进行定位。非极大值抑制(Non-maximal suppression)可以修正这些重复检测结果。虽然极大值抑制对于YOLO的重要性不及对R-CNN或DPM的，极大值抑制使YOLO的mAP提升了2-3%。

2.4 Limitations of YOLO（YOLO的局限性）

YOLO对边界框预测施加了强大的空间约束，因为每个网格单元只能预测两个框，并且只能有一个类别。这种空间约束限制了我们的模型可以预测的距离很近的对象的数量。我们的模型处理成群出现的小物体是比较困难的，比如成群的鸟。

由于我们的模型学习从数据中预测边界框，它很难泛化到具有新的或不常用的长宽比或配置的对象。我们的模型还使用相对大颗粒的特征来预测边界框，因为我们的架构有多个下采样层对输入图像进行多次下采样。

最后，当我们训练模拟检测精度的损失函数时，同等的对待小边界框和大边界框的误差。大边界框的一个小误差可能没有什么影响，但是小边界框的一个小误差在IOU上受到的影响会更大。我们主要的误差来源是定位错误。

3. Comparison to Other Detection Systems

目标检测是计算机视觉的核心问题。检测流水线通常以从图片中提取一组鲁棒性好的特征开始(Haar [25], SIFT [23],HOG [4], 卷积特征 [6])。然后识别特征中空间中物体进行分类[36, 21, 13, 10]或定位[1, 32]。这些分类和定位操作既可以使用滑动窗口的方式在整张图片上运行或者对图片的一些区域子集上运行[35,15,39]。我们将YOLO与几个最好的检测框架进行对比，突出显示关键的相似点和不同点。

Deformable parts models. DPM使用滑动窗口的方式实现目标检测。DPM使用一个未融合的流水线分别实现提取静态特征，对区域进行分析，预测高的分区域的边界框等。我们的系统使用一个卷机神经网络替换了这些不同的部件。该网络可以同时进行特征提取，边界框预测，非极大值抑制，和基于上下文的推理。与使用静态特征不同的是，我们的网络会在线训练特征并为检测任务对他们进行优化。我们融合的架构使我们的模型比DPM更快，精度更高。

R-CNN. R-CNN及其变体使用候选区域替代了滑动窗口来从图片中找出物体。Selective Search[35]生成潜在的边界框，卷积网络提取特征，SVM对框进行打分，线性模型对边界框进行调整，使用非极大值抑制来消除重复的检测。这个复杂流水线的每一步都需要单独进行精确微调，这就导致系统运行非常慢，在测试时一张图片耗时超过40秒。

YOLO和R-CNN有一些相似点。每一个网格单元会创建潜在的边界框，并使用卷积特征对这些框进行打分。但是，我们的系统为网格单元的候选框添加了空间限制，用来减少对同一个物体的多个检测。我们的系统每张图片生成98个边界框远远少于Selective Search生成的2000个。最后，我们的系统将这些独立的组件组合到一起生成一个单一的，可以联合优化的模型。

Other Fast Detectors Fast和Faster R-CNN致力于通过共享计算和使用神经网络代替Selective Search[14][28]生成候选区域来对R-CNN框架进行加速。虽然他们的速度和精度都超过了R-CNN，但是仍达不到实时的要求。

一些研究工作致力于加速DPM[31][38][5]。他们使用cascade加速HOG的计算速度，并使用GPU完成计算。但是只有30Hz的DPM可以以实时的要求运行。

YOLO没有尝试优化一个大型检测流水线的单个模块，而且完全抛弃了流水线，它的设计理念就是快速。

一种类别的检测，比如人脸或者人可以进行高度的优化，因为他们必须处理的变化要少的多[37]。YOLO是一个通用目标检测器，可以同时学习检测多种的物体。

Deep MultiBox. 与R-CNN不同，Szegedy等人训练了一个卷积神经网络[8]代替了Selective Search来预测感兴趣区域(也就是Proposal)。MultiBox还可以通过将置信度的预测替换为单类别的预测来作为一个单目标检测系统。但是，MultiBox不能够实现通用目标检测，只是一个大的检测流水线的一部分，需要进一步的对图片块进行分类。YOLO和MultiBox都是使用一个卷积网络来预测图片中的边界框，但是YOLO是一个完整的检测系统。

OverFeat. Sermanet等人训练了一个卷积神经网络来执行定位，并通过适配使该定位网络可以执行检测[32]。OverFeat虽然可以高效的使用滑动窗口检测，但它仍然是一个未整合的系统。OverFeat对定位进行了优化而不是检测的精度。与DPM类似，在预测时只能看到本窗口(滑动窗口)的信息。OverFeat不能基于全局上下文进行推理，因此需要大量的后处理来生成检测结果。

MultiGrasp. 我们的工作在设计上与Redmon等人的抓取检测类似[27]。我们的边界框预测的网格方法是基于MultiGrasp系统的抓取回归。但是，抓取检测任务比目标检测简单的多。MultiGrasp只需要为含有一个物体的图片预测一个可抓取的区域。它不需要估计目标的大小，位置或者目标的边界或目标的类别，值需要找到一个适合的抓取区域。YOLO会同时预测一张图片中的多个类别的多个目标的边界框和类别概率。

4. Experiments(实验)

首先，我们基于Pascal VOC 2007数据集将YOLO与其他的实时检测系统进行比较。为了理解YOLO和R-CNN变体之间的差异，我们研究了YOLO和Fast R-CNN在VOC 2007上的错误，Fast R-CNN是表现最好的R-CNN[14]的变体之一。基于不同的错误模式，我们展示出YOLO可以对Fast R-CNN检测进行重新扫描，这样减少了误将背景的识别成正样本的错误，对精度有很大的提升。我们同时展示了在VOC 2012上的结果，并与当前表现最好的模型比较了mAP。最后，我们基于两个艺术数据集展示了YOLO比其他的网络更容易泛化到新的领域。

4.1. Comparison to Other Real-Time Systems

许多目标检测的研究都聚焦在使标准的检测流水线执行的更快。[5] [38] [31] [14] [17][28]但是，只有Sadeghi等人创造出了一个实时的检测系统(每秒30帧或更高)。我们将YOLO与他们的DOM的GPU实现进行比较，DPM的运行频率为30Hz或者100Hz。因为其他的方法没有达到实时的标准，我们同样比较了他们相对的mAP和执行速度来考察在目标检测系统中精度和性能可达到的平衡。

Fast YOLO是PASCAL上最快的目标检测方法；据我们所知，也是当前最快的目标检测方式。YOLO的mAP为52.7%，是之前实时检测系统的两倍多。YOLO在保持实时检测性能的前提下可以将mAP提升到63.4%。

我们也使用VGG16来训练YOLO。该模型的精度更高但是执行速度比YOLO慢了很多。该模型可以用来与其他基于VGG16的检测模型进行比较，但是它达不到实时的标准我们后面的文章将聚焦在我们更快的模型上。

Fastest DPM在没有牺牲很多mAP的情况下有效的提升了DPM的速度，但是它仍然超过了实时检测速度的2倍[38]。与神经网络方法相比，DPM在检测方面的精度相对较低，也限制了它的应用。

使用静态的候选边界框[20]替代R-CNN中的Selective Search。它比R-CNN的运行速度快很多，但仍然达不到实时性要求，而且如果没有好的候选框精度会有明显的下降。

Faster R-CNN提升了R-CNN的分类阶段的执行速度，但是它仍然依赖Selective Search 来为每张图片生成候选的边界框，每张图片耗时大约2秒。因此它有很高的mAP，但是0.5fps的执行速度仍然与实时的标准差很远。

最近的网络Faster R-CNN使用一个神经网络代替Selective Search来生成候选边界框，与Szegedy等人类似[8]。我们的测试显示，他们最高精度的模型的处理速度可以达到7fps，规模小一些，精度略低的可以达到18fps。使用VGG16的Faster R-CNN比YOLO的mAP高了10%，但是执行速度慢了6倍。Zeiler-Fergus 的Faster R-CNN只比YOLO慢了2.5倍，但是精度也更低。
在这里插入图片描述

4.2. VOC 2007 Error Analysis

为了进一步检验YOLO和目前最好检测系统的差异，我们详细分析了在VOC 2007上检测的分类结果。我们将YOLO与Fast R-CNN进行了比较，因为Fast R-CNN是在PASCAL上表现最好的检测系统之一，并且它的检测结果是公开的。

我们使用了Hoiem等人的方法和工具[19]。测试时的每一个类别，我们只看该类别的排名前N的预测结果。每一个预测结果或者是正确的或者是根据下面的错误进行分类：

Correct：类别正确，并且IOU>0.5
Localization：类别正确，0.1 < IOU <0 .5
Similar：类别近似，IOU > 0.1
Other：类别错误，IOU > 0.1
Background：任意物体的IOU<0.1

在这里插入图片描述

图4显示了所有20个类中平均的每种错误类型的细分。

YOLO努力使目标的定位准确。YOLO中的定位错误比其他所有错误加起来都多。Fast R-CNN的定位错误更少，但是有更多的背景错误。13.6%的检测结果是非正样本，也就是不包含任何物体的误报。Fast R-CNN将背景预测成物体的可能性差不多是YOLO的3倍。

4.3. Combining Fast R-CNN and YOLO

YOLO比Fast R-CNN的北京错误少很多。通过使用YOLO来减少Fast R-CNN的背景检测错误，这样使精度得到了大幅度的提升。R-CNN预测的每一个边界框我们都检查一下是不是YOLO也检测出了类似的框。如果是，我们基于YOLO的预测概率和两个框的交叉对该检测进一步提高其概率。

在这里插入图片描述
最好的Fast R-CNN模型在VOC2007的测试集上mAP可达71.8%。与YOLO结合后，mAP提上了3.2%达到75%。我们也尝试了将其他版本的Fast R-CNN与最好的Fast R-CNN模型结合起来。这些组合对mAP只有很小的提升，从0.3%到 0.6%，详见表2。

YOLO带来的提升不仅是简单的模型组合的副产品，因为与不同版本的Fast R-CNN结合到一起并没有得到什么收益。相反，正是因为YOLO在测试时会出现与Fast R-CNN各种各样的错误，这对提升Fast R-CNN的精度非常有效。

不幸的是，这些组合模型并没有从YOLO的速度中获益，因为每个模型是分别执行然后将结果整合到一起的。但是，因为YOLO的速度很快，相对于Fast R-CNN并不会显著的增加计算时间。

4.4. VOC 2012 Results

在这里插入图片描述

在VOC 2012测试集上，YOLO的mAP为57.9%。比当前最好的模型低一些，与使用VGG16的原始R-CNN接近，见表3。与最接近的竞争者相比YOLO难以处理小物体。像瓶子、羊、电视/显示器等类别，YOLO的得分比R-CNN或者Feature Edit低8-10%。但是，在其他类别上，像猫、火车，YOLO的精度会更高。

将Fast R-CNN和YOLO结合到一起的模型是表现最好的检测方法之一。通过与YOLO结合，Fast R-CNN精度提升了2.3%，使其在排行榜上提升了5个名次。

4.5. Generalizability: Person Detection in Artwork

目标检测的学术数据集会使用相同的分布来组织训练集和测试集。在实际应用中，应用程序很难预测所有可能的用例，这些测试数据可能与系统之前学习到的东西不同[3]。我们使用Picasso数据集[12]和People-Art数据集 [3]来比较YOLO和其他的检测系统，两个数据集用于艺术品上的人物检测。

在这里插入图片描述
表5中展示了YOLO和其他检测系统的性能对比。作为参考，我们给出了所有模型在VOC 2007人物检测的AP值，这些模型都只使用VOC 2007进行训练。Picasso数据集的模型使用VOC 2012进行训练，People-Art数据集的模型使用VOC 2010。

R-CNN在VOC 2007上的AP很高。但是应用到艺术品上精度下降了很多。R-CNN使用Selective Search来生成候选边界框，现在换为自然图片。在分类时只能看到图片的一个小区域，需要质量很高的候选才可以。

DPM应用到艺术品上后AP还保持的不错。之前的工作理论DPM表现不错的原因是它对于物体的形状和布局有很强的空间模型。虽然DPM没有像R-CNN那样精度下降很多，但是它的AP本来就比较低。

YOLO在VOC 2007上的表现不错，当应用到艺术品上时比其他模型精度下降的少。与DPM类似，YOLO对物体的大小和形状进行建模，还有物体和物体通常出现的位置之间的关系。艺术品和自然图片在像素级别上差异很大，但是物体的大小和形状是类似的，因此YOLO仍然可以很好的预测边界框和检测物体。

5. Real-Time Detection In The Wild

YOLO是一个既快又准的目标检测网络，使他成为计算机视觉应用的理想选择。我们将YOLO与一个网络摄像头连接在一起，证明它能否达到实时的性能，包括从摄像头抓取图片的时间和显示检测结果的时间。

这样得到的系统是交互式的，很容易引起人们的兴趣。虽然YOLO单独处理图像，但当连接到网络摄像头时，它的功能就像一个跟踪系统，在物体移动和外观变化时检测它们。系统演示和源代码可在我们的项目网站上找到：http://pjreddie.com/yolo/。

6. Conclusion

我们介绍了YOLO，一个一体化的目标检测模型。我们的模型构造简单，可以直接使用整像进行训练。与基于分类器的方法不同，YOLO是在直接对应于检测精度的损失函数上训练的，整个模型是联合训练的。

fastyolo是文献中速度最快的通用目标检测器，YOLO推动了实时目标检测的发展。YOLO还可以很好地推广到新的领域，这使得它非常适合于依赖于快速、健壮的对象检测的应用程序。

致谢：这项工作得到了ONR N00014-13-1-0720、NSF IIS-1338054和艾伦杰出研究员奖的部分支持。

References

[1] M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision–ECCV 2008, pages 2–15. Springer, 2008. 4
[2] L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In International Conference on Computer Vision (ICCV), 2009. 8
[3] H. Cai, Q. Wu, T. Corradi, and P. Hall. The cross-depiction problem: Computer vision algorithms for recognising objects in artwork and in photographs. arXiv preprint arXiv:1505.00110, 2015. 7
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conferenceon, volume 1, pages 886–893. IEEE, 2005. 4, 8
[5] T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013. 5
[6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprint arXiv:1310.1531, 2013. 4
[7] J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014. 7
[8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014. 5, 6
[9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015. 2
[10] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010. 1, 4
[11] S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR, abs/1505.01749, 2015. 7
[12] S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014 Workshops, pages 101–116. Springer, 2014. 7
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition
(CVPR), 2014 IEEE Conference on, pages 580–587. IEEE, 2014. 1, 4, 7
[14] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. 2, 5, 6, 7
[15] S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information
processing systems, pages 655–663, 2009. 4
[16] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In Computer Vision–ECCV 2014, pages 297–312. Springer, 2014. 7
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv
preprint arXiv:1406.4729, 2014. 5
[18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. 4
[19] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012. 6
[20] K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprint arXiv:1506.06981, 2015. 5, 6
[21] R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1, pages I–900. IEEE, 2002. 4
[22] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013. 2
[23] D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999. 4
[24] D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val. Ac-cessed: 2015-10-2. 3
[25] C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE,1998. 4
[26] J. Redmon. Darknet: Open source neural networks in c.
http://pjreddie.com/darknet/, 2013–2016. 3
[27] J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014.5
[28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015. 5, 6, 7
[29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015. 3, 7
[30] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 3
[31] M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–79. Springer, 2014. 5, 6
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013. 4, 5[33] Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911, 2014. 7
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 2
[35] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013. 4, 5
[36] P. Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001. 4
[37] P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154, 2004. 5
[38] J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014. 5, 6
[39] C. L. Zitnick and P. Dollár. Edge boxes: Locating object proposals from edges. In Computer Vision–ECCV 2014, pages 391–405. Springer, 2014. 4

卷积神经网络——YOLOV1论文翻译