最开始接触到这个词是在看deeplab2的论文的时候
中文的意思大概可以理解为视野,
但是这个所谓的视野和感受野(receive field)的关系是什么呢?或者说他们两者有些什么不同之处?
这个是论文里的一段话,我们来简单的看一下他都说了些什么;
空洞卷积(可能是个不标准的翻译)允许我们增大任意一层DCNN filter中的field-of-view
表现最好的DCNN模型使用的是小的卷积核来保持计算量和参数数目之间的平衡;
rate = r 的空洞卷积的filter中插入了r-1个0, 将kxk的filter size扩大为了k+(k-1)(r-1) ,这种加0的方法并没有带来计算量的提升。
有了这种方法,我们可以有效地控制 这个所谓的 field-of-view 来在 accurate localization (small field-of-view) and context assimilation (large field-of-view). 之间找到一种平衡。
也就是说这个 field-of-view 和定位精度与上下文之间还有着千丝万缕的联系,
他们利用这种方法,创立了所谓的 DeepLab-LargeFOV 模型,
原文:【Our DeepLab-LargeFOV model variant [38] employs atrous convolution with rate r = 12 in VGG-16 ‘fc6’ layer with significant performance gains, 】
说真的,到这里,我并没有发现这个概念与感受野之间到底有什么差别。。。。。。
这里还有论文的一张配图
这里在说DeepLab-LargeFOV的时候都是在pool5之后的layer做文章,这后面的几个层原来是全连接层,按照FCN的思想改成了卷积层。
可能是因为这样,才不叫receptive field 而改为了field-of-view 吧。。。。。。