论文全称:《YOLOv3: An Incremental Improvement》
论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf
这是我目前看过最轻松诙谐的论文,作者的开头特别有意思。他说自己过去一年花了很多时间在推特上面,也去研究了GAN,后来又回来提升YOLO。他还指出了其实这个版本的更新没有什么特别了不起的地方,只是将别人的一些好的方法融合到v2版本里然后获得了提升,都是些小修小补。
最后论文还写了很多作者对于计算机视觉的一些看法,比如不应该拿来当做军队的武器滥杀无辜,非常值得一看。真是一个又厉害又善良的学者。
改进之处
1.多尺度预测 (类FPN)
YOLOv3在三个不同的尺度上预测。在YOLO v3中采用类似FPN的上采样(upsample)和融合做法(最后融合了3个scale,其他两个scale的大小分别是2626和52*52),在多个scale的feature map上做检测,对于小目标的检测效果提升还是比较明显的。
2.分类器 darknet-53
网络使用连续3×3和1×1卷积层,但现在有一些shortcut connections。因为有53层卷积层所以被叫做darknet-53。
这个网络的性能比darknet-19优越,分类的准确率接近resnet但是实时性方面比resnet要好得多。
检测结果
参考文献:
https://pjreddie.com/media/files/papers/YOLOv3.pdf