2019目标检测方法进展简单总结

参考:https://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247487298&idx=1&sn=0c7166808ef88b5c527c8951d1883cec&chksm=97d7ead5a0a063c3dfc7adb9b262bccd01a2a08011b4d8ec8fbffc565668bed20fdf96914194&scene=0&xtrack=1#rd

现代大多数目标检测器的框架是 two-stage,其中目标检测被定义为一个多任务学习问题:1)区分前景物体框与背景并为它们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其它指标。最后,通过一个 NMS 过程移除冗余的边界框(对同一目标的重复检测)。

二维目标检测实现和优化方向包括backbone、IoU、损失函数、NMS、anchor、one shot learning/zero shot learning等。

1、 基于目标检测的backbone和特征提取

目标检测的backbone一般基于ImageNet预训练的图像分类网络。图像分类问题只关注分类和感受视野,不用关注物体定位,但是目标检测领域同时很关注空间信息。如果下采样过多,会导致最后的feature map很小,小目标很容易漏掉。很多基础架构网络,比如ResNet、Xception、DenseNet、FPN、DetNet、R-CNN,PANet、等神经网络提取图像的上下文信息,不断在特征提取方向优化。

2、 基于优化的算法

包括UnitBox,IoU-Net[1],旷视科技ECCV2018有一篇论文是引入IoU-Net,其能预测检测到的边界框和它们对应的真实目标框之间的 IoU,使得该网络能像其分类模块一样,对检测框的定位精确程度有所掌握,神经网络在Backbone引入IoU-Net做边界修订。

3、 基于优化损失函数的方法

包括L1和L2,Focal loss等。

4、 基于优化NMS的方法

包括Soft-NMS,Softer-NMS,以及Relation Netwrok,ConvNMS,NMS Network,Yes-Net等

5、基于Anchor生成的算法

比如Sliding window、Region Proposal Network (RPN) 、CornerNet、meta-anchor等。

一、GIoU

GIoU的定义很简单,就是先计算两个框的最小闭包区域面积,再计算IoU,再计算闭包区域中不属于两个框的区域占闭包区域的比重,最后用IoU减去这个比重得到GIoU。GIoU有如下5个特点:

1.与IoU相似,GIoU也是一种距离度量,满足损失函数的基本要求
2.GIoU对scale不敏感
3.GIoU是IoU的下界,在两个框无线重合的情况下,IoU=GIoU
4.IoU取值[0,1],但GIoU有对称区间,取值范围[-1,1]。在两者重合的时候取最大值1,在两者无交集且无限远的时候取最小值-1,因此GIoU是一个非常好的距离度量指标。
5.与IoU只关注重叠区域不同,GIoU不仅关注重叠区域,还关注其他的非重合区域,能更好的反映两者的重合度

二、GA-RPN(Guided Anchoring)

是一种新的anchor 生成方法即通过图像特征来指导anchor 的生成通过CNN预测 anchor 的位置和形状,生成稀疏而且形状任意的 anchor,并且设计Feature Adaption 模块来修正特征图使之与 anchor精确匹配。GA-RPN相比RPN减少90%的anchor,并且提高9.1%的召回率。
基于RPN和sliding window的anchor生成方式有两个缺点:(1)anchor的尺度和长宽比需要预先定义,针对不同类型的检测任务需要调整这些超参数,预先定义好的 anchor 形状不一定能满足极端大小或者长宽比悬殊的物体。(2)为了保证召回率,需要生成密集的anchor,引入过多负样本同时影响模型的速率。

扫描二维码关注公众号,回复: 6568099 查看本文章

(在一般拍摄图像中,一般检测目标是不均匀分布且稀疏的。检测目标的尺度和图像内容、位置和几何形状相关。基于图像的先验知识,论文提出稀疏的anchor生成方式:首先生成可能包含目标的子区域中心位置,然后在图像不同位置确定尺度和长宽比,既稀疏,形状根据位置可变的 anchor)

提出了anchor的设计两个要求
1、alignment,为了用卷积特征作为anchor的表示,anchor的中心需要和特征图的像素中心比较好地对齐
2、consistency,不同位置(不同卷积层)对应的anchor的形状和大小应该一致。

CornerNet模型预测目标边界框的左上角和右下角一对顶点,既使用单一卷积模型生成热点图和连接矢量,而论文提出的GA-RPN,直接预测anchor 的位置和形状(长宽)。生成anchor过程可以分解为两个步骤,anchor 位置预测和形状预测

优点

1、论文提出anchor设计的两个准则:alignment 和 consistency,指导基于anchor优化的方向。采用位置预测和形状预测两个分支,不需要像FPN预先设置尺度和长宽比,同时使用可变形卷积对feature map调整,生成高质量低密度的proposal,提高IoU的阈值进行训练。

2、提出了一种新的anchor策略,用于产生稀疏的任意形状的anchor;

3、论文提出的GA-RPN可以完全替代RPN,在Fast R-CNN, Faster R-CNN and RetinaNet等模型基础上提高目标检测模型的精度

缺点

1、论文假设图像中的目标是稀疏的。如果是稠密图像,比如车站或广场的拥挤人群,检测效果有待检验。

2、每一个点只产生一个anchor,那么对于那些目标中心重合,即一个点需要负责检测两个目标,似乎无法处理。

3、采用deformable卷积会相对地降低速度,同时根据DCN v2的分析,在deformable卷积中加入可调节的机制可能会更好。

三、FSAF

物体的多尺度信息一直是目标检测的难点和痛点。CNN的低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略Feature Pyramid Network(FPN)它利用多级的feature map去预测不同尺度大小的物体,其中高层特征带有高级语义信息和较大的感受野,适合检测大物体,浅层特征带有低级的细节语义信息和较小的感受野,适合检测小物体。FPN逐步融合深层特和浅层特征,使得逐步增加浅层的特征的高级语义信息来提高特征表达能力,提升检测效果,已经成为目标检测领域的标配

提出的FSAF模块就是为了解决特征图选择和重叠anchor选择,既FSAF模块让每个anchor instance自动的选择最合适的feature
在这里插入图片描述
文章提出的FSAF以RetinaNet为主要结构,添加一个FSAF分支图 (上图)和原来的class subnet、regression subnet并行,可以不改变原有结构的基础上实现。在class subnet分支添加3x3卷积层(K个滤波器),得到WxHxK的特征图,预测K类目标所属类别的概率。regression subnet分支添加3x3卷积层(4个滤波器),得到WxHx4的特征图,预测回归框的偏移量。

优缺点分析:
1、论文提出的anchor-free,是说不在根据anchor size提取特征,而是根据FSAF模块自动选择合适的feature,既anchor (instance) size成为了一个无关的变量。不是说不在使用anchor的方式。

2、FSAF可以集成到其他single-stage模型中,比如SSD、DSSD等。

猜你喜欢

转载自blog.csdn.net/weixin_44474718/article/details/92682717