行人检测0-02:LFFD-白话给你讲论文-翻译无死角(1)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/weixin_43013761/article/details/102683981

以下链接是个人关于LFFD(行人检测)所有见解,如有错误欢迎大家指出,我会第一时间纠正。有兴趣的朋友可以加微信:a944284742相互讨论技术。若是帮助到了你什么,一定要记得点赞!因为这是对我最大的鼓励。
行人检测0-00:LFFD-史上最新无死角详细解读:https://blog.csdn.net/weixin_43013761/article/details/102592374

知识预备

随着能力的提升,我发现自己阅读论文的能力在逐步增强 ,那么这个逼,怎么装给大家看呢?思来想去啊,决定今后每个项目,都使用白话为大家翻译解释,让你深刻理解作者的核心思想,我始终觉得,只有把你自己学会的知识,能给别人讲明白,那么,你才是真的学会了!牛逼就到这里了哈。
在看这篇论文的时候,大家需要预备俩个知识点,一个为感受野,一个为 anchor(描点),其中前者感受野,十分的好理解,我就不讲解了,后者 anchor,说实话,真的不是那么好理解的,所以编写了一篇针对anchor讲解的博客,如下:
深度解剖(5):白话谈anchor(锚点),不懂来找我!
如果知道了anchor(锚点)大概是什么东西,那么我们就开始论文的翻译吧。

摘要

很多应用都会涉及到人脸检测,并且经常被部署到,计算能力和内存都比较差的边缘设备上(如嵌入式,或者移动端)。这篇论文主要提出了一种速度比较快,准确率也比较高的人脸检测算法。这种方法和传统的不一样,是没有anchor的,并且还是单个阶段完成检测。这里特别的说明一下,我们对目标检测的receptive field (RF:感受域)和 effective receptive field (ERF:有效感受域)做了深入的研究,如果不是很理解,没关系,继续往下看就了解了。

基于把某些层的RF(感受域)看做是自然的anchor,以及结合RF(自然的anchor=感受域)以及RF对应的步伐(就是当前feature map一个点,对应原图的多少个像素)这种思想,理论上可以检测一副图中大范围的人脸,哪怕那些人脸的尺寸都各不相同。受到ERF(有效感受域)和人脸缩放的启发,我们设计出了一个高效的,单阶段的人脸检测架网络。该网络的主要框架由一些公共的的网络层,以及8个分支组成,因此提高了检测速率。基于现在流行的人脸检测数据(WIDER FACE,FDDB)做了全面的实验对比,并且针对应用场景提出了一种新的评估方式。

这种新的测试方式把测试集分为3个类型:1.容易检测的(人脸比较大),2.中等难度的(人脸大小居中),3.比较难检测的(人脸比较小)。我们提出的这种网络模型,

在WIDER数据集上Val/Test的准确率分别是(针对各个难度):
(简单)0.910/0.896, (中等)0.881/0.865,(困难) 0.780/0.770;

我们的网络运行速度非常的快(NVIDIA TITAN Xp: 131.45FPS at 640×480; NVIDIA TX2: 136.99 PFS at 160×120;Raspberry Pi 3 Model B+: 8.44 FPS at 160×120),模型只有9M大小。

Table 1(基于和WIDER数据集和前五的检测方法进行对比):
在这里插入图片描述

1.介绍

人脸检测是计算机视觉一个重要的分支,很多应用场景都需要他的支持,如果人脸校正,人脸识别等。并且人脸检测经常被用在边缘设备上,比如手机或者嵌入式,甚至摄像头内部等等。这些设备的计算能力和内存大小都是有一定局限性的,但是在工业上,其对准确率和速度都有一定的要求。

目前一些最先进的人脸检测,在WIDER FACE数据集上已经达到了很高的准确率,但是其中大部方法,都是使用了模型大,参数多的网络框架,比如VGG,Resnet50/152,and Densenet121。这前五种方法的准确率展示在上图的Table 1中,可以看到他们的差距都会很微小,甚至实际应用都很难察觉到他们之间的差距。很显然,想通过更加复杂的模型去提高准确率,是没有必要的,因为即使提升了,速度也跟不上,并且很难落地。所以我们认为,为了在实在场景中更好的去使用人脸检测,应该是去平衡准确率和速度之间的关系。

最近的十年间,人脸检测的发展是非常快的,最早的是 Viola-Jones提出,使用手工提取特征,然后利用级联分类器(不理解也没有关系)。其中聚合通道的特点,是众所周知的。通过这种方法,很明显的提高了速度。但是他们依赖于手工提取特征,不是端到端的进行训练,导致检测的准确率不是很高。

但是近些年的CNN在WIDER FACE数据集上取得了很高的准确率,完胜传统模式。这些方法可以粗略的分成两个类别,分别为一个阶段和两个阶段。其中两个阶段的方法,包括了候选框的提取,以及局部回归,其中R-CNN就是比较一个经典的代表。一个阶段的方法,分类和box的回归是同步的,一般会结合anchor和多尺寸图像变换(图像金字塔)一起使用。在很多单阶段的检测中,anchor是网络中必不可少的部分。以往为了提高准确率,提出了很多复杂的网络模型,但是他们的速度是很慢的。

这这篇论文中,我们提出了一种不仅快,而且准确率也比较高的模型(Light and Fast Face Detec-LFFD),可以在边缘设备上部署。我

猜你喜欢

转载自blog.csdn.net/weixin_43013761/article/details/102683981