深浅层特征融合——CBNet

写在前面

本系列博客“深浅层特征融合”对几篇出现较新的深浅层特征融合算法进行简要介绍，多为本人的论文笔记，记录了一个深度学习小学生在看论文时想到的问题。

论文题目：CBNet: A Novel Composite Backbone Network Architecture for Object Detection

论文链接：https://arxiv.org/pdf/1909.03625.pdf

github地址：https://github.com/PKUbahuangliuhe/CBNet

整体介绍

这篇论文来自北大，2019年9月发表，时间很新。

研究背景：作者认为当前基于深度学习的目标检测算法中，负责进行特征提取的backbone网络，其最初的设计目的大多是为了图像分类。利用这些网络提取的特征直接进行不同数据集的目标检测任务时，可能不会达到最优效果。

研究方法：直接设计一个新的backbone并预训练又很慢很艰难，因此作者以对现有的backbone进行融合作为研究出发点

特征融合算法：对多个同结构不同参数的backbone网络并列，横向地沿一个方向对相邻backbone的各个阶段特征进行整合，仅采用最末端的backbone网络所提取的特征进行后续目标检测或语义分割任务。

算法介绍

本文提出的backbone融合的思想很好理解，单看下图就能理解：

Illustration of the proposed Composite Backbone Network (CBNet) architecture for object detection

这样融合的好处是，Lead Backbone相比于传统单一backbone，每个阶段提取的特征，包含了一些多次经过某阶段卷积核提取出的特征，可以粗糙理解为该阶段该的卷积核反复通过了好几次（不过不同backbone同一阶段的weight也不同，并且进行composite融合前也进行了upsample操作，不是简单地重复该层）。

对比实验

不同composite方式对比

作者对比了相邻backbone之间不同composite方式的效果差异，最终发现“左high-level+右low-level”的形式效果最好，在对几种composite方式的效果进行对比并尝试分析理由时，个人觉得有点牵强。仅从文章中我还是不太能理解为什么“左high-level+右low-level”就能让后者get enhanced，“左low-level+右high-level”就能让后者get harmed。也欢迎和大家讨论。

backbone个数的对比

作者通过实验发现，随着backbone个数的增长，整体效果都是在提高的，但随之而来的memory cost也不容忽视。最终作者建议采用2或3个backbone。

两个backbone会令model size扩充到原先的不到两倍（图中的mb）：

问题记录

以下问题是作者看论文是脑子里蹦出来的所有问题，适合小白日常修补知识漏洞。

关于本文的问题：

Q	A
关于benchmark怎样理解？
identical backbone的identical?	只表示结构一样，weight不同
将CBNet和RCNN对比时，为什么用RCNN作为detector的backbone就需要再预训练？
一般upsample都有什么操作？upsample除了维度上的作用，还有别的用途吗？
one stage方法的backbone为什么不保持一样？

本文以外的问题：

Q	A
ResNet and ResNeXt
新提出的一些目标检测算法需要看
DetNet 、FishNet？特征为目标检测设计的backbone和普通针对图像分类初衷的backbone有何区别？
RCNN？
FPN、RPN？
Detectron?
hrnet?分辨率维持不变
学习率warm up
soft-NMS?
目标检测几个指标的具体算法
single\multi-scale training\inference?