一句话总结
如文章名字所言,本文主要强调大的kernel的重要性,pascal上82.2%。文章的试验和分析还是挺细致的。
故事背景
文章认为,classification和localization之间是有冲突的,我们平时所用的卷积分割网络,在提高分割效果的同时,削弱了分类的能力。文中认为通过设置大的感受野可以获得featuremap与pixel score之间的densely connections。
1 Global Convolutional Network
文章所谓的Global Convolutional Network 是增大kernel size获得更大的感受野,而增加感受野的方式如下:
使用了 K x 1和1 x K的卷积核,计算量小,参数少
另外作者在使用GCN提高分类能力的同时,增加了一个Boundery Refinement的 模块来增加边缘信息。
2 overall Framework
总的来说就是将multiscalar的score map不断融合相加
3 Experiment
3.1 Ablation Experiments- Large Kernel
要比较的是 下图中不同k的左侧与右侧,右侧为base
可以较明显的可以看出随着k增加 效果越好
接下是来排除另外两种增大kernelsize的形式:
- 首先:
上图即表中的conv
作者认为参数太多不好优化造成了效果下降
- 其次:
同样通过下面的试验试图说明 随着参数的减少,stack的效果越来越差,所以认为kx1这种效果好
文中的另外一个试验,说明GCN主要对提高分类能力有帮助,BR主要对边缘有帮助
3.2 Pretrained model
动过手的都知道 没有pretrain 模型是很头疼的问题,本文实验证明,没有pretrained model也可以得到较好的效果
3.3 pascal voa 2012及cityscapes
文章训练分了三部分,首先使用了 pascal + sbd +coco 然后使用了pascal—+sbd 最后只用了pascal voa 2012。
试验中MS竟然只提高了0.1个点。。。
cityscapes中测试的时候讲图片分了四个1024 x 1024的图片最后fuse,最后76.9%