吴恩达 -- 第四课 卷积神经网络 第三周 Detection algorithms

1.注意输入图片的是左上角为(0,0),待检测目标的尺寸要转化为在原图尺寸中的占比。

 2.图片中没有需要检测的三种物体,所以....

3.需要注意的是,题目中说饮料瓶形状是圆的并且尺寸都一样(即尺寸是固定大小,bh=bw=固定值),固定值不需要预测。

 4.在课件特征点检测中,以人脸特征点为例时,使用坐标(bx,by)表示特征点的位置。注意特征点没有尺寸。

5.在训练集需要提供标定好的bounding boxes,来让模型计算损失函数,以此调整预测框的位置。

 6.使用滑动窗口作为区域提议方法时,窗口的步长越大,预测的准确率越低。

7.我的理解是:YOLO在训练阶段,论文只允许一个grid cell只负责预测一个物体(当这个物体的中心落入这个cell中),但是在检测的时候,可能会出现两个物体的中心都落入一个grid cell中,所以论文的作者说,如果设置的grid cell尺寸越小,落入同一个cell的可能性越低。但是这样计算量会增加很多。

8.计算在下面红色字体

 9.这个题我是直接按照吴老师课件上理解的,课件下图。在做NMS时,有三步:

1.先进行清洗,去掉图中P_c小于等于0.4的boxes。图中car0.26就被删掉了。

2.对剩下的所有boxes做循环,循环是针对每一个grid cell中的物体类别

  • 选出预测这个物体的boxes中p_c最大的box,作为输出;
  • 去掉剩下的IoU大于等于0.5的box,那就把car0.62去掉了,此时图中留下5个box,其中预测树的为两个。

10.每一个grid cell会产生五个anchor boxes,每一个box会有25个参数,这些参数是置信度p_c,坐标和尺寸,类别向量。

猜你喜欢

转载自blog.csdn.net/qq_27871973/article/details/83147413