目标检测3: yolov3结构原理,boundingbox边框回归

注:a.部分图像是从其他博客偷的!!!;b.个人理解,错误难免,推荐看论文原汁原味(yolov3:https://arxiv.org/abs/1804.02767;yolov2:https://arxiv.org/abs/1612.08242;yolov3:https://arxiv.org/abs/1804.02767

1. 结构图

完整结构图(偷的)

简单结构图(偷的):

基础网络darknet53的特点:全部采用卷积;使用卷积核stride=2缩小特征图的尺寸(yolov2使用的是maxpooling);引入了残差结构使网络可以更深。

目标检测的结构:采用3种尺度的预测输出(13x13, 26x26, 52x52);采用与特征金字塔网络(Feature Pyramid Networks,见下图https://arxiv.org/abs/1612.03144v2)类似的操作,可以获得更多的语义信息;

2.网络输出:
yolov3一共有9个anchor,3个输出,每个输出用3个anchor,所以输出的每个位置预测3个box。对于13x13的输出,每个box的参数包括tx, ty, tw, th,及该box有物体的置信分数,该box中为每类物体的概率。

扫描二维码关注公众号,回复: 5965699 查看本文章

因此,对于VOC数据集,类别为20,带入上图的公式中yolov3的输出3种尺寸的大小为:13x13x(3*(20+5))=13x13x75, 26x26x(3*(20+5))=26x26x75, 52x52x(3*(20+5))=52x52x75。

3. boundingbox回归:
    下图为预测boundingbox的公式。预测边框时cx, cy为相对于左上角的位置,每个小格的长度为1,图中此时cx=1,cy=1。tx和ty分别经过sigmoid输出0-1之间的偏移量,与cx, cy相加后得到bounding box中心点的位置。pw, ph是手动设置的anchor宽和高,tw, th分别与pw, ph作用后得到bounding box的宽和高。这样就能得到预测boudingbox的x,y,w,h了,我们的目的是让预测的x,y,w,h和真实的groundtruth接近,于是我们就可以写loss了。

800

下一篇:retinanet:https://blog.csdn.net/u010397980/article/details/85058767

猜你喜欢

转载自blog.csdn.net/u010397980/article/details/85058630
今日推荐