YOLO9000: Better, Faster, Stronger

Abstract

我们介绍一个最先进的，实时的目标检测系统——YOLO9000，它可以检测超过9000种目标类型。首先我们提出了针对YOLO的各种改进方法，即有新的思路也借鉴了以往的工作。经过提升后的模型——YOLOv2，是在标准检测任务(像PASCAL VOC 和COCO)上表现最好的。通过使用一种新颖的多尺度的训练，相同的YOLOv2模型可以使用不同的输入大小，可以使速度和精度得到一个简单的平衡。在VOC 2007上，当速度为67 FPS时mAP为76.8。当速度为40 FPS时，mAP为78.6，超过了目前最好的检测模型(像使用Resnet的Faster R-CNN和SSD)同时运行的更快。最后我们提出了一种将检测和分类联合训练个方法。使用这种方式我们同时使用COCO的检测数据集和ImageNet的分类数据集对YOLO9000进行训练。我们融合的训练方式，可以是YOLO9000可以预测那些没有标记的检测数据的物体类别。我们使用ImageNet的检测任务来验证我们的方法。YOLO9000在ImageNet的检测验证集上得到的mAP为19.7，尽管200个类别中只有44类别有检测数据。COCO中没有包含的156个类别，YOLO9000得到的mAP为16.0。但是YOLO不仅仅只检测200个类别，它可以检测超过9000种物体。并且仍然是实时检测。

1. Introduction

通用目标检测应该快速、准确并且能够识别多种多样的目标。自从引入了神经网络，目标检测的框架越来越快速和准确。但是，大多数的检测方法目前仅限于能够检测一小部分类别的目标。

与其他任务相比，比如分类和标记，当前的目标检测数据集非常有限。最常见的检测数据集包含几千到几十万的图片，这些图片有几十到几百的标签[3] [10] [2]。分类任务的数据集有数以百万的图片，覆盖了几万到几十万的类别[20] [2]。

我们希望检测数据集能够扩展到对象分类的数量级。然而，为检测而标记图像的成本远远高于为分类或标记标记图像的成本（标记通常由用户免费提供）。因此，我们不太可能在不久的将来看到与分类数据集规模相同的检测数据集。

我们提出了一个新的方法来使用我们已有的大量的分类数据，用它来扩展当前检测系统的检测范围。我们的方法使用了目标分类的层次视图，允许我们将不同的数据集结合在一起。

我们同时提出了一种联合训练算法，允许我们使用检测和分类的数据来训练目标检测器。我们的方法利用标记的检测图片来学习精准的定位目标，使用分类图片来扩展类别和提高鲁棒性。

使用该方法我们训练了YOLO9000模型，一个可以检测超过9000种不同类别的物体的实时检测系统。首先，我们改进了基础的YOLO检测系统，升级为YOLOv2——最先进的实时检测系统。然后，使用我们的数据集组合方法和融合训练算法，使用来自ImageNet的超过9000种类别的数据和来自COCO的检测数据来训练一个模型。

所有的代码和预训练模型发布在：http://pjreddie.com/yolo9000/

2. Better

在这里插入图片描述
YOLO与最好的检测系统相比还有受多个缺点困扰。误差分析结果表明，与Fast R-CNN相比，YOLO出现了大量的定位错误。此外，与基于候选区域的方法相比YOLO的召回率相对较低。因此我们的主要精力放在在保持分类精度的同时提升召回率和定位精度。

计算机视觉通常趋向于更大、更深的网络[6] [18] [17]。更好的性能通常取决于训练更大的网络或将多个模型集成在一起。但是，有了YOLOv2，我们就有了一个精度更高并且速度仍然很快的检测器。我们没有扩展网络，相反我们简化了网络，这样使学习物体的表达更加容易。我们从过去的工作中的很多想法与我们自己新颖的观念结合起来，以提升YOLO的表现。结果汇总见表2。

Batch Normalization.(批量归一化) BN可以显著的提高收敛性，同时消除了对其他形式正则化的需求。将YOLO中所有的卷积层都加上BN后mAP提升了2%以上。BN同样有助于模型的正则化。使用BN后我们可以将模型中的dropout移除而不会出现过拟合。

High Resolution Classifier.(高分辨率分类器) 所有最先进的检测方法都使用在ImageNet[16]上预训练的分类器。从AlexNet开始大多数的分类器的输入图片分辨率都小于256x256[8]。原始YOLO使用224x224的图片来训练分类网络，检测网络会将分辨率提高到448。这就意味着网络必须同时切换到学习目标检测和调整到新的分辨率。

对于YOLOv2，我们在ImageNet数据集上使用448x448的分辨率的图片对分类网络进行了10个epoch的微调。这使网络时间来调整它的过滤器，使它能更好的处理更高分辨率的输入。然后我们将得到的网络针对检测进行微调。这个高分辨率的分类网络使mAP提升了近4%。

Convolutional With Anchor Boxes.(锚点框卷积) YOLO使用在提取特征的卷积层上面的全连接层直接预测边界框的坐标。与直接预测坐标不同，Faster R-CNN使用手工挑选的先验值[15]来预测边界框。Faster R-CNN中的RPN网络仅使用卷积层来预测边界框的偏移和置信度。由于RPN的预测层是卷积计算，它会在特征图的每一个位置来预测锚点框的偏移。预测偏移以预测位置简单的多，使问题得到了简化，也使网络学习起来更加容易。

我们移除了YOLO中的全连接层，使用锚点框来预测边界框。首先，我们去掉了一个池化层使网络的卷积层的输出具有更高的分辨率。同时我们将网络输入缩小到416替代以前448x448。这么做的原因是我们想让特征图中有奇数个位置，这样就只有一个中心单元。物体，尤其是大的物体，往往占据图像的中心，所以最好使用中心的一个位置来预测这些物体而不是中心附近的四个位置。YOLO的卷积层对图片进行了32倍的下采样，输入图片是416我们得到的特征图是13x13。

当我们转向使用锚点框后，我们还将类别预测机制与空间位置进行了解耦，取而代之的是为每个锚点框预测类别的目标。与YOLO一样，目标的预测仍然是预测真值框和建议框的IoU，类别预测是预测有物体的前提下，物体为该类别的条件概率。

使用锚点框后，精度略有下降。YOLO只为一张图片预测98个框，但是我们的模型预测超过一千个锚点框。在不使用锚点框我们的中间模型mAP为69.5，召回率为88%。使用锚点框后我们模型得到的mAP为69.2，召回率为88%。尽管mAP下降了，召回率的提高意味着有更大的提升空间。

Dimension Clusters.(尺度聚类) (个人理解:这里对数据集中标记框的尺度或者大小进行聚类就是找出该数据集候选框的宽和高的大小，然后在每一个单元上使用k个不同大小形状的框)在YOLO上使用锚点框的时候我们遇到了两个问题。第一个是框的尺寸大小是手动选取的，网络可以学习适当的调整框，但是如果为网络挑选更好的先验框的话，我们可以使网络更容易学习以达到好的检测效果。

我们没有采用手动选择先验框，取而代之的是我们在训练集的边界框上执行k-means聚类分析，来自动的找出好的先验框。如果我们使用欧式距离的标准k-means距离算法的话，大框会比小框产生更多的误差。但是，我们真正想要的是IOU得分高的先验框，这与框的大小没有关联。因此对于距离的计算方式我们使用，IOU越大计算结果越小，"距离"也就越小：

d(box, centroid) = 1 − IOU(box, centroid)

公式里面centroid是聚类是被选做中心的框,box就是其他的框。

这里简要介绍一下欧氏距离(Euclidean distance)，也叫做欧几里得度量(euclidean metric)是一个常用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。计算公式如下：

在这里插入图片描述

我们执行了不同k值的k-means聚类算法，并且绘制了与centroid最接近的平均IOU，见图2。为了很好的平衡模型复杂度和高召回率，我们选择k=5。聚类质心与手工选取的锚点框有很大的不同。它包含更少的矮且宽的框，更多的高且瘦的框。

在这里插入图片描述

在表1中我们比较了聚类策略生成的最接近的先验框和手工选取锚点框的平均IOU。只有五个centroid的表现与9个锚点框接近，一个平均IOU是61.0，一个是60.9。如果我们使用9个centroid，可以看到IOU高出很多。这表明使用k-means算法生成边界框可以更好的表示模型，并且使任务更容易学习。

k-means聚类后面单独写一篇文章讲一下

Direct location prediction.(直接对位置进行预测) 我们在YOLO中使用锚点框遇到了第二个问题：模型不稳定，尤其是前期的迭代训练。多数的不稳定性来自于预测框的坐标(x, y)。在RPN网络中会预测两个值t_x和t_y，中心点坐标(x, y)使用如下公式计算(这里的公式应该是错误的,减号应该变为加号):
在这里插入图片描述
例如，预测得到t_x = 1，将会时框向右移动一个宽度的距离，如果t_x = -1则向左移动相同的距离。

这中形式是不固定的，因此任何锚点框的最终位置可能在图片的任意点，不管该框位于何处。对模型进行随机初始化后，花费了很长时间才能够稳定的预测合理的偏移。

我们没有采用预测偏移的方法，而是使用了YOLO的方法，预测相对于网格单元的位置坐标。这就将真值框的值限定在0和1之间。我们使用逻辑激活函数来限制网络的预测结果落到该区间中。

网络会为输出的特征图中每个单元预测5个边界框(对应到上面k=5)。为每个边界框预测5个坐标，t_x，t_y，t_w，t_h和t_o。如果网格单元相对于图片左上角的偏移为(c_x,c_y)。先验框的宽和高分别是p_w, p_h，那么对应的预测结果为：
在这里插入图片描述

由于我们限制了位置预测使参数更易于学习，使网络更加的稳定。使用尺度聚类和直接预测边界框的中心位置比使用锚点框版本的YOLO网络提升了差不多5%。

Fine-Grained Features.(分辨率更高的特征) 修改后的YOLO网络使用13x13的特征图进行推理。这虽然对于大的物体是足够的，如果用分辨率更高的特征图可能有益于定位小物体。Faster R-CNN和SSD都会使用网络中的多个特征图来运行生成候选框的网络，来获取一系列分辨率的候选框。我们走了一条不同的路，简单的添加一个透传层，将前面一层26x26分辨率的特征图透传过来。

与ResNet中的恒等映射类似，passthrough层通过将相邻的特征叠加到不同的通道而不是空间位置来连接高分辨率特征和低分辨率特征。这将使26× 26× 512特征映射成13× 13× 2048特征映射，可以与原始特征连接。我们的检测器运行在这个扩展的特征图之上，这样它就可以访问细粒度的特征。这将使精度提高1%。

(个人理解:这里做的事情就是在最后的pooling层之前又加了一层passthrough,该层接收到前面26x26x512的特征后对其进行了拆分得到一个13x13x2048的特征,这样就与pooling后的特征进行相加了都是13x13的,没有经过Pooling下采样保持了高分辨率)

Multi-Scale Training.(多尺度训练) 原始YOLO使用分辨率为448x448的图片作为输入。加入锚点框后我们将分辨率调整为416x416。然而，我们的模型只使用卷积层和池化层，可以在运行过程中动态调整图片的大小。我们希望YOLOv2对输入不同大小的图片具有鲁棒性，因此我们将此加到了模型训练里。

我们每个几轮迭代就会修改网络而不是使用固定大小的输入。每十个batch我们的网络会随机选择一个新的图片尺寸。由于我们的网络采用的32倍下采样，我们从下面这些32的倍数中选取：{320, 352, …, 608}。因此最小的是320x320，最大的是608x608。我们调整网络的输入到选择的大小，然后继续进行训练。

该机制迫使网络学会针对多种不同输入大小进行预测。这几意味着一个网络可以预测不同大小分辨率的图片。该网络在小输入的时候运行的更快，因此YOLOv2提供了速度和精度一个简单的折衷。

在低分辨率的时候YOLOv2可以作为一个廉价、相当精确的检测器。以288x288的分辨率作为输入，执行速度超过了90FPS，mAP与Fast R-CNN差不多。这使YOLOv2非常适合更小的GPU、高帧率视频或者多个视频流。

在高分辨率输入时YOLOv2在VOC2007上是表现最好的网络，mAP为78.6，同时速度仍然在实时的速度以上。在表3中我们将YOLOv2和其他框架基于VOC2007进行了对比。

Further Experiments.(进一步实验) 我们训练YOLOv2在VOC 2012上进行检测。表4显示了YOLOv2与其他最先进检测系统的性能比较。YOLOv2的mAP为73.4，同时运行速度远远快于竞争对手的方法。我们还使用COCO进行了训练，表5中展示了与其他方法进行的比较结果。在VOC指标（IOU=0.5）上，YOLOv2的mAP为44.0，与SSD和Faster R-CNN相当。
在这里插入图片描述

3. Faster

我们想要检测准确同时我们也想让检测速度快。大多数的检测应用，例如机器人或者自动驾驶汽车，都依赖低延时检测。为了最大限度的提高性能，我们从一开始就以速度快来设计YOLOv2。

大多数的检测框架使用VGG16来提取基本特征[17]。VGG-16是一个功能强大且精确的分类网络，但是它过于复杂。对于一张分辨率为224x224的图片，一次前向传播就需要306.9亿次的浮点数计算。

YOLO使用了基于Googlenet架构自定义的网络[19]。该网络比VGG-16执行速度快，一次前向传播只有85.2亿次的计算。但是比VGG-16略差。for single-crop只对ImageNet裁剪一次，以224x224大小的输入，YOLO测top5精度为88.0%，VGG-16为90.0%。

Darknet-19. 我们提出了一个新的分类模型作为YOLOv2的基础。我们的模型建立在先前网络设计工作以及该领域通用知识基础上。与VGG相似，我们使用的过滤器大多数是3x3的，在每个pooling[17]后我们将通道数加倍。根据Network In Network(NIN)中所做的，我们使用全局平均池化来执行预测，同时使用1x1的过滤器来压缩3x3卷积[9]之间的特征。我们使用BN来稳定训练，加速收敛，对模型进行归一化[7]。

最终的模型，称为Darknet-19，包含19个卷积层和5个最大池化层。完整的描述见表6。在ImageNet数据集上，Darknet-19处理一张图片只需要55.8亿次的计算，top1精度达到72.9%，top5精度达到91.2%。
在这里插入图片描述
Training for classification.(分类训练) 我们使用Darknet-19神经网络框架，用标准的1000分类的ImageNet数据集对网络训练160个epoch，训练中使用初始学习率为0.1的随机梯度下降(SGD)优化器，幂为4的多项式衰减，权重衰减为0.0005，momentum为0.9。训练中我们使用了标准的数据增强技巧，包括随机裁剪、旋转、色调、饱和度和曝光调整。

就像上面讲述的，在使用224x224的图片进行初始训练后，我们用更大的448的图片对网络进行了微调。我们使用前面训练使用的参数进行微调，但是只训练10个epoch，然后学习率变为10^-3。着这样高分辨率的情况下我们的网络top1精度为76.5%，top5精度为93.3%。

Training for detection.(检测训练) 我们对前面的分类网络进行修改来实现检测的功能，先移除最后的一个卷积层，将其替换为3个卷积层，每个卷积层有1024个3x3过滤器，最后跟一个1x1的卷积层，输出的数量是我们想要检测的数量。对于VOC数据集，我们预测五个框，每个框5个坐标和20个类别，因此是125个过滤器。同时我们在最后一个3x3x512的卷积层与倒数第二个卷积层之间添加了一个透传层，使我们的模型可以使用更细粒度的特征。

我们一共训练了160个epoch，开始学习率为0.001，在60和90个epoch的时候分别除以10。使用的权重衰减为0.0005，momentum为0.9。我们使用了与YOLO和SSD类似的数据增强，随机裁剪、颜色变换。对COCO和VOC数据集使用了相同的训练策略。

4. Stronger

我们提出了一个使用分类和检测数据联合训练的机制。我们的方法是标记的检测图片来学习针对检测会用到信息，比如边界框坐标的预测和是否存在目标，以及对常见目标进行分类。使用只包含类别标签的图片来扩展网络可以检测的类别数量。

在训练中我们将检测数据集和分类数据集中的图片混合在一起。当网络的输入是一张标记的检测图片我们会基于完整的YOLOv2损失函数进行反向传播。当是一张分类图片，我们反向传递分类部分的损失。

该方法遇到了一些挑战。检测数据集只包含常见目标和标签名称也更通用，比如"狗"或"船"。分类数据集包含的类别标签则更加广泛，分类也更细。ImageNet包含100多种狗，包括“诺福克梗”、“约克郡梗”和“贝灵顿梗”。如果我们想使用两个数据集进行训练，需要一个合理的方法来合并这些标签。

大多数的分类方法使用一个softmax层来计算所有可能类别的概率分布。使用softmax时假设这些类别是互斥的。这种情况就为组合数据集带来了一个问题，例如使用该模型的时候不会想将ImageNet和COCO联合在一起，因为"诺福克梗"和"狗"两个类别不是互斥的。

我们可以使用多标签模型将数据集联合起来，该模型不需要假设类别互斥。这种方法忽略了我们所知道的关于数据的所有结构，例如所有COCO类都是互斥的。

Hierarchical classification.(类别分层) ImageNet的标签是从WordNet中提取出来的，WordNet是一个语言数据库，由一些概念及其关系构成[12]。在WordNet中，“诺福克梗"和"约克郡梗"都是"梗”，"梗"又是"猎狗"的一种，“猎狗"又是"狗"的一种，狗又属于"犬科”，等等。大多数分类方法都假设标签的结构是扁平的，但是对于组合数据集，体系结构才是我们所需要的。

WorNet是一个有向图的结构，而不是树结构，因为语言是很复杂的。例如，“狗"是"犬"的一种也是一种"家畜”，而"犬"和"家畜"在WordNet中都是语法集。我们没有使用全图结构，通过将ImageNet中的概念构造成一个层次化的树来简化问题。

为了构建该树，我们检测了ImageNet中的可视名称，并查看了他们在WordNet图中到根节点的路径，这里叫做"物理对象"。有一些语法集在WordNet图中只有一条路径，首先我们将所有的这些路径添加到我们的树中。然后我们循环检查剩下的名称，然后将路径添加到树中，这些路径使树增长的越小越好。因此如果一个名称到根节点有两条路径，一条路径需要添加三条边，另一条路径需要添加一条边，这种情况下我们选择较短的路径。

最终得到了一个名词树(WordTree)，一个可视化概念的层次话模型。为了使用WordTree执行分类，我们预测每个节点的条件概率即给定语法集中每个下义词的概率。例如，在"terriers"节点，我们预测：
在这里插入图片描述
如果我们想要计算某个特定节点的绝对概率，只需要简单的沿着到root节点的路径，将路径上节点的条件概率乘起来即可。因此，如果我们想知道是不是一张"诺福克梗"的图片,我们需要这样计算：
在分类时我们假设图片中肯定包含物体：Pr(physical object) = 1。

为了验证该方法，我们使用通过1000分类的ImageNet构造的WordTree来训练Darknet-19。为了构造1K的WordTree，我们将所有的中间节点都添加到了WordTree中，这是标签的数量由1000变为了1369。在训练过程中我们基于WordTree扩展了真值标签，因此，如果一张图片的标签是"诺福克梗"，那么它同样会被标记为"狗"和"家畜"，等。为了计算条件概率，我们的模型预测了一个有1369个值的数组，我们计算了所有语法集的softmax，这些语法集是同一概念的下义词，见图5。

使用与前面相同的训练参数，我们的分层Darknet-19达到71.9%的top-1准确率和90.4%的top-5准确率。尽管添加了369个额外的概念并且使我们的网络预测了一个树形结构，但是精度只是略有下降。使用这种方式进行分类同样有一些好处。在新的或者未知类型的物体上精度下不会大幅度下降。例如，网络在一张图片中看到了一条狗，但是不确定是哪种类型的狗，它仍然以高置信度来预测为狗，但是给下义词低的置信度。

该公式同样适用于检测。现在，不在假设每张图片有一个目标，我们使用YOLOv2检测器给我们一个Pr(physical object)的值。检测器预测一个框和一个树型的概率。我们向下遍历树，在分叉口取高置信度的分支，直到达到某个阈值，该节点的类型就是我们的预测类型。
在这里插入图片描述
Dataset combination with WordTree. (使用WordTree将数据集结合起来) 我们可以通过WordTree以合理的方式将多个数据集结合到一起。只需要简单的将数据集中的类别映射到WordTree中的语法集。图6展示了使用WordTree将ImageNet和COCO的标签结合到一起的例子。WordNet非常多样化，我们可以将此技术应用到大多数数据集上。

Joint classification and detection.(融合分类和检测) 现在我们可以使用WordTree将数据集组合在一起，这样我们就可以训练分类和检测的融合模型了。我们想训练一个超大规模的检测器，因此我们将COCO的检测数据集和全量ImageNet的前9000个类别组合到一起作为我们的数据集。我们同样需要评估我们的方法，因此会将ImageNet挑战数据集中我们还没有包含的任意类别添加进来。该数据集的WordTree有9418个类别。ImageNet是比COCO大很多的数据集，我们通过对COCO过采样来平衡数据集，ImageNet和COCO的比例是4:1。

我们使用该数据集训练了YOLO9000。我们使用基础版的YOLOv2，但是只有3个先验框而不是5个来控制输出的大小。当我们的网络看到一张检测图片时正常的反向传播loss值。对于分类loss，我们只反向传播标签对应层或者上面层次的loss。例如，如果标签是"狗"，我们会将任何错误分配给树下面的预测，例如"德国牧羊犬"和"金毛猎犬"，因为我们没有这些信息。

当看到一张分类图片时，只反向传播分类的loss值。要做到这一点，我们只需找到预测为该类别概率最高的边界框，然后计算其预测树上的loss值。我们同时假设预测框与真正标签的重叠至少为0.3IOU，并基于该假设反向传播的目标loss值。

使用该融合训练方法，使用COCO的检测数据集类学习找到图片中的目录，使用ImageNet中的数据学习对这些分属于众多类别的目标进行分类。

我们时候用ImageNet的检测任务对YOLO9000进行评估。ImageNet的检测任务与COCO只有44个类别是相同的，这意味着YOLO9000只看到大部分测试图片的分类数据而不是检测数据。YOLO9000的总体mAP为19.7，在不相交的156个类别上的mAP为16.0，这些类别从来没有看到任何标记的检测数据。这个mAP比DPM得到的结果要高，但是YOLO9000只在部分监督下在不同的数据集上进行训练[4]。它还同时检测9000个其他物体类别，所有这些都是实时的。

当我们分析YOLO9000在ImageNet上的表现时，发现它能够很好的学习新的动物类别，但是在学习衣服和装备等类别时却比较困难。新的动物学习比较容易是因为从COCO中的动物检测泛化的很好。相反，COCO没有任何类型的衣服边界框标签，只有人体的，因此YOLO9000为比如"太阳镜"和"泳裤"等类别建模会比较困难。

5. Conclusion

我们介绍了YOLOv2和YOLO9000——实时检测系统。YOLOv2是最先进的检测系统，在多种数据集上比其他检测系统更快。进一步说，它可以在多种大小的图片上运行，这样速度和精度就有了一个平滑的平衡。

YOLO9000是一个通过融合优化分类和检测可以检测超过9000种类别的实时框架。我们使用WordTree将多个来源的数据组合到一起，然后使用我们的融合训练优化技术同时在ImageNet和COCO上进行训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步。

我们的很多技术可以推广到目标检测领域之外。通过WordTree展示ImageNet提供了一个对图片分类更加丰富和详细的类别输出空间。使用层次化分类将数据集组合到一起对于分类和分割领域都是有用的。像多尺度训练等训练技术可以使各种视觉任务收益。

对于未来的工作，我们希望使用类似的技术来弱化图像分割的监督。我们还计划在训练期间通过给数据分配弱标签等更强大的匹配策略来改善检测结果。计算机时间有幸拥有大量的标记数据。我们将继续寻找方法，将不同的数据来源和结构结合在一起，形成更强大的视觉世界模型。

References

[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. arXiv preprint arXiv:1512.04143, 2015. 6
[2] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 248–255. IEEE, 2009. 1
[3] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303–338, 2010. 1
[4] P. F. Felzenszwalb, R. B. Girshick, and D. McAllester. Discriminatively trained deformable part models, release 4. http://people.cs.uchicago.edu/ pff/latent-release4/. 8
[5] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015.5, 6
[6] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. 2, 5, 6
[7] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 2, 5
[8] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. 2
[9] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv preprint arXiv:1312.4400, 2013. 5
[10] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, pages 740–755. Springer, 2014. 1, 6
[11] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. SSD: single shot multibox detector. CoRR, abs/1512.02325, 2015. 5, 6
[12] G. A. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. J. Miller. Introduction to wordnet: An on-line lexical database. International journal of lexicography, 3(4):235–244, 1990.6
[13] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 5
[14] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arXiv preprint arXiv:1506.02640, 2015. 5, 6
[15] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015. 2, 3, 5, 6
[16] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 2
[17] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2, 4
[18] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. CoRR, abs/1602.07261, 2016. 2
[19] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 4
[20] B. Thomee, D. A. Shamma, G. Friedland, B. Elizalde, K. Ni, D. Poland, D. Borth, and L.-J. Li. Yfcc100m: The new data in multimedia research. Communications of the ACM, 59(2):64–73, 2016. 1

卷积神经网络——YOLOV2(YOLO9000)论文翻译