读paper——OverFeat

2014年ICLR。

overfeat是一个feature extractor。

主要特点是网络前5层做特征提取层,后面几层可以修改以适应分类、定位和检测不同任务。

两个重要的基础知识:FCN和offset max-pooling。

FCN可以满足网络输入任意大小图像的需求。

offset max-pooling:作用于layer 5 pooling前的特征图。

考虑AlexNet是使用multi-view的方式来投票分类测试;然而这种方式可能忽略图像的一些区域,在重叠的view区域会有重复计算;而且还只在单一的图片缩放比例上测试图片,这个单一比例可能不是反馈最优的置信区域。

作者在多个缩放比例,不同位置上,对整个图片密集地进行卷积计算;这种滑窗的方式对于一些模型可能由于计算复杂而被禁止,但是在卷积网络上进行滑窗计算不仅保留了滑窗的鲁棒性,而且还很高效。每一个卷积网络的都输出一个m*n-C维的空间向量,C是分类的类别数;不同的缩放比例对应不同的m和n。

因为物体和view可能没有很好的匹配分布(物体和view越好的匹配,网络输出的置信度越高)。为了解决这个问题,我们采取在最后一个max-pooling层换成offset max-pooling,平移pooling;这种平移max-pooling是一种数据增益技术。

 其实这个offset max-pooling技术提升效果并不明显。

 同时在各个view和缩放比例下计算分类和回归网络,分类器对类别c的输出作为类别c在对应比例和view出现的置信分数;

每个回归网络(每个类分别一个回归网络),以最后一个卷积层作为输入,回归层也有两个全连接层,隐层单元为4096,1024(为什么作者没有说,估计也是交叉实验验证的),最后的输出层有4个单元,分别是预测bounding box的四个边的坐标。和分类使用offset-pooling一样,回归预测也是用这种方式,来产生不同的预测结果。

结合预测:

a)在6个缩放比例上运行分类网络,在每个比例上选取top-k个类别,就是给每个图片进行类别标定Cs

b)在每个比例上运行预测boundingbox网络,产生每个类别对应的bounding box集合Bs

c)各个比例的Bs到放到一个大集合B

d)融合bounding box。具体过程应该是选取两个bounding box b1,b2;计算b1和b2的匹配分式,如果匹配分数大于一个阈值,就结束,如果小于阈值就在B中删除b1,b2,然后把b1和b2的融合(坐标平均值)放入B中,在进行循环计算。

最终的结果通过融合具有最高置信度的bounding box给出。

检测和分类训练阶段相似,但是是以空间的方式进行;一张图片中的多个位置可能会同时训练。和定位不通过的是,图片内没有物体的时候,需要预测背景。

猜你喜欢

转载自blog.csdn.net/steph_curry/article/details/86600318