关于field-of-view和receptive field

最开始接触到这个词是在看deeplab2的论文的时候

中文的意思大概可以理解为视野,

但是这个所谓的视野和感受野(receive field)的关系是什么呢?或者说他们两者有些什么不同之处?

这个是论文里的一段话,我们来简单的看一下他都说了些什么;

空洞卷积(可能是个不标准的翻译)允许我们增大任意一层DCNN filter中的field-of-view

表现最好的DCNN模型使用的是小的卷积核来保持计算量和参数数目之间的平衡;

rate = r 的空洞卷积的filter中插入了r-1个0, 将kxk的filter size扩大为了k+(k-1)(r-1) ,这种加0的方法并没有带来计算量的提升。

有了这种方法,我们可以有效地控制 这个所谓的 field-of-view 来在 accurate localization (small field-of-view) and context assimilation (large field-of-view). 之间找到一种平衡。

也就是说这个  field-of-view  和定位精度与上下文之间还有着千丝万缕的联系,

他们利用这种方法,创立了所谓的 DeepLab-LargeFOV  模型,

原文:【Our DeepLab-LargeFOV model variant [38] employs atrous convolution with rate r = 12 in VGG-16 ‘fc6’ layer with significant performance gains, 】

说真的,到这里,我并没有发现这个概念与感受野之间到底有什么差别。。。。。。

这里还有论文的一张配图

这里在说DeepLab-LargeFOV的时候都是在pool5之后的layer做文章,这后面的几个层原来是全连接层,按照FCN的思想改成了卷积层。

可能是因为这样,才不叫receptive field 而改为了field-of-view 吧。。。。。。

(纯属个人的胡乱猜测)

猜你喜欢

转载自blog.csdn.net/Pierce_KK/article/details/84847059