YOLO-V1第一节:初学网络架构

YOLOv1检测原理:
一张图输入给网络,最后会输出一个7×7×30的特征图。
其中7×7是原图448×448经过了64倍降采样得到。
30是指:2×5+10 ,每个网格(grid cell)会预测出:两个bbox(bounding box)和 20位的类别。每个bounding box包含了 cx、cy、w、h、c。

Yolov1的核心思想是:
逐网格找东西,将原来448×448的图划分为7×7。YOLOv1通过这些网格来找物体的中心坐标和类别,每个网格会输出B个bbox和C个类别的置信度,每个bbox会包含5个参数(置信度+框的坐标位置 )。故每个网格会输出5B+C个预测参数。因此网络最后会输出一个S×S×(5B+C)的图片。其中S = 输入图像尺寸/网络的最大stride,原文中为S = 7 = 448 / 64。

YOLOv1整体工作流程:
【插入图片】
经过了最后的全连接层后会输出一个S×S×(5B+C)大小的向量,随后resize成一个S×S×(5B+C)大小的特征图

YOLOv1的输出一共包含三个部分:objectness、class、box
objectness:框的置信度,表征网格是否有物体
class:类别预测
box:边界框

Guess you like

Origin blog.csdn.net/weixin_44894550/article/details/120766324