【论文阅读】【2D目标检测】EfficientNet和EfficientDet

EfficientNet和EfficientDet是2020年新出来的图像分类和目标检测算法,抽出空来读了一下,这里做一下记录。

EfficientNet

论文全称:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
发表刊物:2019ICML

核心问题

本文解决的一个核心问题是:给定计算资源的前提下,在不变动网络结构的情况下,如何最大化的提升网络的能力。首先文章给出了几种提升网络能力的方法,如下图:
在这里插入图片描述
(a) \text{(a)} (a)baseline,确定网络的结构
(b) \text{(b)} (b)增加卷积核的channel数,也就是增加每个feature map的channel数
(c) \text{(c)} (c)增加网络的深度,增加卷积层的数量,可以扩大感受野,更好地提取高级特征
(d) \text{(d)} (d)提高输入的分辨率,也就增加每个feature map的大小
(e) \text{(e)} (e)本文提出融合 (b)(c)(d) \text{(b)(c)(d)} (b)(c)(d)方法

本文将上述目标,表示成的数学形式如下:
在这里插入图片描述

compound scaling method

数学形式可以表达如此:
在这里插入图片描述
上述表达的意义理解如下:

  1. ϕ = 0 \phi = 0 ϕ=0时, d = w = r = 1 d=w=r=1 d=w=r=1,也就是baseline的网络。文章中用自动搜索网络结构的方式搜出来一个高效的网络结构。
  2. ϕ = 1 \phi = 1 ϕ=1时,depth扩展为 α \alpha α倍,width(也就是channel数量)扩展为 β \beta β倍,输入的resolution扩展为 γ \gamma γ倍。depth扩展 α \alpha α倍,导致的计算量扩展 α \alpha α倍。width扩展为 β \beta β倍,也就是卷积核输入输出的channel都扩展 β \beta β倍,那么卷积核数量和channel数都扩展为 β \beta β倍,所以计算量提升 β 2 \beta ^{2} β2倍。resolution扩展 γ \gamma γ倍,图像和feature map都扩展 γ 2 \gamma ^ {2} γ2倍。所以综上,计算量扩展 α ⋅ β 2 ⋅ γ 2 \alpha \cdot \beta ^{2} \cdot \gamma ^ {2} αβ2γ2倍。所需的计算空间也是如此。而要求 α ⋅ β 2 ⋅ γ 2 \alpha \cdot \beta ^{2} \cdot \gamma ^ {2} αβ2γ2约等于2,所以 ϕ = 1 \phi = 1 ϕ=1意味着计算能力和计算空间都变为2倍。确定 α \alpha α, β \beta β, γ \gamma γ则是用grid search来进行的。
  3. ϕ = n \phi = n ϕ=n时,意味着,计算能力和计算空间都扩展 2 n 2^n 2n倍。仍然可以用grid search来进行搜索,但搜索空间过于大,所以文本采用的方式是只搜索 ϕ = 1 \phi = 1 ϕ=1时的 α \alpha α, β \beta β, γ \gamma γ,然后保持 α \alpha α, β \beta β, γ \gamma γ不变。

由上述方法,给定一个搜索出来的baseline的网络结构,然后通过对width,depth和resolution的扩展,扩展出来一组网络。效果如下:自然是强的飞起
在这里插入图片描述

EfficientDet

论文全称:EfficientDet: Scalable and Efficient Object Detection
发表刊物:2020CVPR

理解了EfficientNet,那么以EfficientNet作为backbone,也可以生成一组针对于2D目标检测的网络,这就是EfficientDet。那么有了backbone,detection head如何做呢?

本文提出了BiFPN,改自NAS-FPN,文中解释的intuition很简单,在文中3.3.2中解释。然后再对不同尺度的特征图融合的时候,加了权重。BiFPN的width,depth的增长,文中也给出了规则。resolution的增长,不同于efficientNet,但也是逐渐增长的。这部分中,其增长模式没有过多的介绍其中的内涵,有的是搜出来的,有的就是定位线性增长。这也是本文被诟病的地方,超参数量多,而且解释不够。但文本作为单阶段的检测网络,效果也是杠杠的。效果如下:
在这里插入图片描述

强是真滴强!

猜你喜欢

转载自blog.csdn.net/wqwqqwqw1231/article/details/111222952