yolo论文阅读

摘要:之前都把检测当做分类问题,一般先弄一个预选框然后分类,然后对未知精调;现在我们把他当做回归问题,45fps,检出率低但是误捡也不会高.好处:1.快,因为回归和分类一起而且回归很快.2.误捡少,因为随时有全局信息,视野是整张图3.学习到很好的抽象表示,所以相对来讲,学真实图片,测素描或艺术图片的任务yolo会表现的相对好.

介绍:分成S*S格,每个格子预测B个框(x, y, w, h,and confidence.),conf=Pr(Object) IOUtruth pred.s x,y是中心相对于小格子的左上角坐标的偏移量,w.h是相对于整张图片的

另外,对于C分类问题,我们是每个格子grid得到C个类概率数,不分B个框.在测试时,再把这个类概率再乘以每个框的conf就是每个框的每个类概率


如图:上面是S*S*B*5个数的回归,下面是S*S*C的回归(每个格子哪个类概率最大最后估出来隔离里面的物体就是这个类)

模型结构:


用448*448图片,用leakey relu.那些不含物体的格子分类概率为0,这样loss就很少了不太对 ,.这样模型容易发散.为了补救,我们党小格子检测不到物体时,loss weight降为原来的1/10.另外为了平衡大小物体,我们不是直接优化的h,w而是其开根号.上面的IOU指的是最大的IOU

感受一下loss的计算方式:


i表示第几个格子,j表示这个格子里的第几个bounding box,如果这个格子里面有东西,II(i)为1.

我们用的是S=7,B=2,C=20这样我们输出结果的大小是7*7*30.其中20个数是每个格子的类别预测,每个格子两个bounding box,每个bounding box由5个数表示

猜你喜欢

转载自blog.csdn.net/xie_qiuqiu/article/details/80857537