深浅层特征融合——CBNet

写在前面

本系列博客“深浅层特征融合”对几篇出现较新的深浅层特征融合算法进行简要介绍,多为本人的论文笔记,记录了一个深度学习小学生在看论文时想到的问题。


论文题目:CBNet: A Novel Composite Backbone Network Architecture for Object Detection

论文链接:https://arxiv.org/pdf/1909.03625.pdf

github地址:https://github.com/PKUbahuangliuhe/CBNet

整体介绍

这篇论文来自北大,2019年9月发表,时间很新。

研究背景:作者认为当前基于深度学习的目标检测算法中,负责进行特征提取的backbone网络,其最初的设计目的大多是为了图像分类。利用这些网络提取的特征直接进行不同数据集的目标检测任务时,可能不会达到最优效果。

研究方法:直接设计一个新的backbone并预训练又很慢很艰难,因此作者以对现有的backbone进行融合作为研究出发点

特征融合算法:对多个同结构不同参数的backbone网络并列,横向地沿一个方向对相邻backbone的各个阶段特征进行整合,仅采用最末端的backbone网络所提取的特征进行后续目标检测或语义分割任务。

算法介绍

本文提出的backbone融合的思想很好理解,单看下图就能理解:

Illustration of the proposed Composite Backbone Network (CBNet) architecture for object detection

这样融合的好处是,Lead Backbone相比于传统单一backbone,每个阶段提取的特征,包含了一些多次经过某阶段卷积核提取出的特征,可以粗糙理解为该阶段该的卷积核反复通过了好几次(不过不同backbone同一阶段的weight也不同,并且进行composite融合前也进行了upsample操作,不是简单地重复该层)。

对比实验

  • 不同composite方式对比

作者对比了相邻backbone之间不同composite方式的效果差异,最终发现“左high-level+右low-level”的形式效果最好,在对几种composite方式的效果进行对比并尝试分析理由时,个人觉得有点牵强。仅从文章中我还是不太能理解为什么“左high-level+右low-level”就能让后者get enhanced,“左low-level+右high-level”就能让后者get harmed。也欢迎和大家讨论。

  • backbone个数的对比

作者通过实验发现,随着backbone个数的增长,整体效果都是在提高的,但随之而来的memory cost也不容忽视。最终作者建议采用2或3个backbone。

 两个backbone会令model size扩充到原先的不到两倍(图中的mb):

问题记录

以下问题是作者看论文是脑子里蹦出来的所有问题,适合小白日常修补知识漏洞。

关于本文的问题:

Q A
关于benchmark怎样理解?  
identical backbone的identical? 只表示结构一样,weight不同

将CBNet和RCNN对比时,为什么用RCNN作为detector的backbone就需要再预训练?

 

一般upsample都有什么操作?upsample除了维度上的作用,还有别的用途吗?

 

one stage方法的backbone为什么不保持一样?

 
   

本文以外的问题:

Q A
ResNet and ResNeXt  

新提出的一些目标检测算法需要看

 

 DetNet 、FishNet?特征为目标检测设计的backbone和普通针对图像分类初衷的backbone有何区别?

 

RCNN?

 
FPN、RPN?  

Detectron?

 
hrnet?分辨率维持不变  
学习率warm up  
soft-NMS?  

目标检测几个指标的具体算法

 

single\multi-scale training\inference?

 

猜你喜欢

转载自blog.csdn.net/s000da/article/details/102495156
今日推荐