多尺度优化的CNN目标检测算法

每天一分钟,带你读遍机器人顶级会议文章
标题:Recurrent Scale Approximation for Object Detection in CNN
作者:Yu Liu, Hongyang Li, Junjie Yan, Fangyin Wei, Xiaogang Wang, Xiaoou Tang
来源:ICCV 2017 ( IEEE International Conference on Computer Vision )
编译:博主
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权


摘要

CNN神经网络天生就不太适用于处理大尺度变化的数据。这意味着在需要处理尺度变化的目标检测中需要在每个尺度上计算特征图,无疑增加了计算量,是当前目标检测实用的一个瓶颈。
针对此问题,本文提出一个常见尺度估计模型RSA来一次性计算特征图,并且用这些图来估计其他尺度上的特征图。RSA模型的核心在于递归展开机制,即利用比当前尺度大一倍的特征图来估计当前的特征图。
同时,为提高RSA的精度和效率,本文:(a)设计了一个尺度预测网络,从而只计算必要尺度的特征图;(b)提出了关键点回溯网络LRN,从而对特征图上预测的关键点进行可信度评价。LRN是一个非常有效的机制,能够极大的消除RSA产生的累计错误。
最后本文的模型也是一个端到端系统,能够在CNN框架下进行训练。实验证明本文的算法在人脸检测上已经能够达到最优效果,在一些一般的场景下也能达到不错的效果。当然最大的福利是本文的代码也是公开的,地址如下:github.com/sciencefans/RSA-for-object-detection。

这里写图片描述
图1是本文算法的基本流程,展示了本文是如何解决多尺度探测问题的思路。一方面预测需要探测的尺度,另一方面则利用已知的尺度特征图来估计未知的特征图。

这里写图片描述
图2是展示了LRN算法的作用,即评价不同尺度上的关键点的可信度。

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012348774/article/details/80642255