参考：https://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247487298&idx=1&sn=0c7166808ef88b5c527c8951d1883cec&chksm=97d7ead5a0a063c3dfc7adb9b262bccd01a2a08011b4d8ec8fbffc565668bed20fdf96914194&scene=0&xtrack=1#rd

现代大多数目标检测器的框架是 two-stage，其中目标检测被定义为一个多任务学习问题：1）区分前景物体框与背景并为它们分配适当的类别标签；2）回归一组系数使得最大化检测框和目标框之间的交并比（IoU）或其它指标。最后，通过一个 NMS 过程移除冗余的边界框（对同一目标的重复检测）。

二维目标检测实现和优化方向包括backbone、IoU、损失函数、NMS、anchor、one shot learning/zero shot learning等。

1、基于目标检测的backbone和特征提取

目标检测的backbone一般基于ImageNet预训练的图像分类网络。图像分类问题只关注分类和感受视野，不用关注物体定位，但是目标检测领域同时很关注空间信息。如果下采样过多，会导致最后的feature map很小，小目标很容易漏掉。很多基础架构网络，比如ResNet、Xception、DenseNet、FPN、DetNet、R-CNN，PANet、等神经网络提取图像的上下文信息，不断在特征提取方向优化。

2、基于优化的算法

包括UnitBox，IoU-Net[1]，旷视科技ECCV2018有一篇论文是引入IoU-Net，其能预测检测到的边界框和它们对应的真实目标框之间的 IoU，使得该网络能像其分类模块一样，对检测框的定位精确程度有所掌握，神经网络在Backbone引入IoU-Net做边界修订。

3、基于优化损失函数的方法

包括L1和L2，Focal loss等。

4、基于优化NMS的方法

包括Soft-NMS,Softer-NMS,以及Relation Netwrok，ConvNMS，NMS Network，Yes-Net等

5、基于Anchor生成的算法

比如Sliding window、Region Proposal Network (RPN) 、CornerNet、meta-anchor等。

一、GIoU

GIoU的定义很简单，就是先计算两个框的最小闭包区域面积，再计算IoU，再计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU。GIoU有如下5个特点：

1.与IoU相似，GIoU也是一种距离度量,满足损失函数的基本要求
2.GIoU对scale不敏感
3.GIoU是IoU的下界，在两个框无线重合的情况下，IoU=GIoU
4.IoU取值[0,1]，但GIoU有对称区间，取值范围[-1,1]。在两者重合的时候取最大值1，在两者无交集且无限远的时候取最小值-1，因此GIoU是一个非常好的距离度量指标。
5.与IoU只关注重叠区域不同，GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度

二、GA-RPN（Guided Anchoring）

是一种新的anchor 生成方法，即通过图像特征来指导anchor 的生成。通过CNN预测 anchor 的位置和形状，生成稀疏而且形状任意的 anchor，并且设计Feature Adaption 模块来修正特征图使之与 anchor精确匹配。GA-RPN相比RPN减少90%的anchor，并且提高9.1%的召回率。
基于RPN和sliding window的anchor生成方式有两个缺点：（1）anchor的尺度和长宽比需要预先定义，针对不同类型的检测任务需要调整这些超参数，预先定义好的 anchor 形状不一定能满足极端大小或者长宽比悬殊的物体。(2)为了保证召回率，需要生成密集的anchor，引入过多负样本同时影响模型的速率。

扫描二维码关注公众号，回复： 6568099 查看本文章

（在一般拍摄图像中，一般检测目标是不均匀分布且稀疏的。检测目标的尺度和图像内容、位置和几何形状相关。基于图像的先验知识，论文提出稀疏的anchor生成方式：首先生成可能包含目标的子区域中心位置，然后在图像不同位置确定尺度和长宽比，既稀疏，形状根据位置可变的 anchor）

提出了anchor的设计两个要求
1、alignment，为了用卷积特征作为anchor的表示，anchor的中心需要和特征图的像素中心比较好地对齐
2、consistency，不同位置(不同卷积层)对应的anchor的形状和大小应该一致。

CornerNet模型预测目标边界框的左上角和右下角一对顶点，既使用单一卷积模型生成热点图和连接矢量,而论文提出的GA-RPN，直接预测anchor 的位置和形状（长宽）。生成anchor过程可以分解为两个步骤，anchor 位置预测和形状预测。

优点

1、论文提出anchor设计的两个准则：alignment 和 consistency，指导基于anchor优化的方向。采用位置预测和形状预测两个分支，不需要像FPN预先设置尺度和长宽比，同时使用可变形卷积对feature map调整，生成高质量低密度的proposal，提高IoU的阈值进行训练。

2、提出了一种新的anchor策略，用于产生稀疏的任意形状的anchor；

3、论文提出的GA-RPN可以完全替代RPN，在Fast R-CNN, Faster R-CNN and RetinaNet等模型基础上提高目标检测模型的精度

缺点

1、论文假设图像中的目标是稀疏的。如果是稠密图像，比如车站或广场的拥挤人群，检测效果有待检验。

2、每一个点只产生一个anchor，那么对于那些目标中心重合，即一个点需要负责检测两个目标，似乎无法处理。

3、采用deformable卷积会相对地降低速度，同时根据DCN v2的分析，在deformable卷积中加入可调节的机制可能会更好。

三、FSAF

物体的多尺度信息一直是目标检测的难点和痛点。CNN的低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。Feature Pyramid Network（FPN）它利用多级的feature map去预测不同尺度大小的物体，其中高层特征带有高级语义信息和较大的感受野，适合检测大物体，浅层特征带有低级的细节语义信息和较小的感受野，适合检测小物体。FPN逐步融合深层特和浅层特征，使得逐步增加浅层的特征的高级语义信息来提高特征表达能力，提升检测效果，已经成为目标检测领域的标配。

提出的FSAF模块就是为了解决特征图选择和重叠anchor选择，既FSAF模块让每个anchor instance自动的选择最合适的feature。
在这里插入图片描述
文章提出的FSAF以RetinaNet为主要结构，添加一个FSAF分支图（上图）和原来的class subnet、regression subnet并行，可以不改变原有结构的基础上实现。在class subnet分支添加3x3卷积层（K个滤波器），得到WxHxK的特征图，预测K类目标所属类别的概率。regression subnet分支添加3x3卷积层（4个滤波器），得到WxHx4的特征图，预测回归框的偏移量。

优缺点分析：
1、论文提出的anchor-free，是说不在根据anchor size提取特征，而是根据FSAF模块自动选择合适的feature，既anchor (instance) size成为了一个无关的变量。不是说不在使用anchor的方式。

2、FSAF可以集成到其他single-stage模型中，比如SSD、DSSD等。

2019目标检测方法进展简单总结

1、基于目标检测的backbone和特征提取

2、基于优化的算法

3、基于优化损失函数的方法

4、基于优化NMS的方法

5、基于Anchor生成的算法

一、GIoU

二、GA-RPN（Guided Anchoring）

优点

缺点

三、FSAF

猜你喜欢

2019目标检测方法进展简单总结

1、 基于目标检测的backbone和特征提取

2、 基于优化的算法

3、 基于优化损失函数的方法

4、 基于优化NMS的方法

5、基于Anchor生成的算法

一、GIoU

二、GA-RPN（Guided Anchoring）

优点

缺点

三、FSAF

猜你喜欢

1、基于目标检测的backbone和特征提取

2、基于优化的算法

3、基于优化损失函数的方法

4、基于优化NMS的方法