1. YOLOv3的改进

1.1 边界框预测

YOLOv2的边界框预测引入了anchor boxes。每一个边界框由网络预测出的4个坐标表示，分别为tx，ty，tw，th。网格相对图像左上角的距离为（cx，cy），真实边界框的宽度和高度为pw，ph，那么预测边界框的坐标就为：
这里写图片描述
YOLOv3使用logistic回归来预测每一个边界框的对象分数。如果一个真实边界框交叠一个真实对象的面积超过任何其它的真实边界框，那么这个边界框的对象分数就是1。如果一个真实边界框确实交叠一个真实对象面积超过了一个阈值，但是它还不是最好的，那么我们就忽略预测。每一个真实对象只与一个真实边界框对应。

1.2 分类预测

每一个边界框采用多标签分类的方法来预测边框中包含的类别。不再使用softmax，而是采用独立的logistic分类器。使用分类预测的交叉熵损失作为代价函数。

这种方案使得网络可以在更复杂的数据集上运行，例如Open Images Dataset。在这个数据集中有很多交叠的标签，如女人和人。使用softmax引入了每一个边界框都确定的包含一类对象的假设，但是有时并不是这样的。多标签方法能够更好的拟合数据。

1.3 横跨多个规模进行预测 Prediction Across Scales

YOLOv3在三种不同的规模上预测边框。整个网络采用一种金字塔的形式，从不同的卷积层提取出3种不同规模的特征映射，在各自以特征映射作为卷积网络的输入，分别预测出3个anchor boxes。

规模1：在YOLOv2网络的基础上，再添加几层卷积层。网络的最后输出一个N*N*[3*(4+1+80)]的tensor1。

N*N：分割图像的网格数
3：3个预测边界框
4：每一个anchor box的4个坐标
1：每一个anchor box包含对象的概率
80：每一个anchor box预测80个类别

规模2：将规模1输出的特征映射进行上采样，将尺寸扩大2倍；取规模1网络的倒数第二层卷积输出的特征映射，与扩大后的规模1网络输出的特征映射相叠加，得到一个叠加后的特征映射。再将这个叠加后的特征映射输入到一个卷积网络中，得到一个形状与tensor1相似，知识尺寸扩大2倍的tensor2。

规模3：采用相同的思路，将规模2的映射上采样，将尺寸再扩大2倍；去规模1网络的倒数第三层卷积输出的特征映射，将两个特征映射进行叠加。然后预测3个anchor boxes。

YOLOv3仍然使用k-means聚类来选择anchor boxes。按照大小排序了9个类，将9个类任意分成3个规模。在COCO数据集上，分别为（10*13），（16*30），（33*23），（30*61），（62*45），（59*119），（116*90），（156*198），（373*326）。