行人检测0-02：LFFD-白话给你讲论文-翻译无死角（1）

本文链接： https://blog.csdn.net/weixin_43013761/article/details/102683981

以下链接是个人关于LFFD(行人检测)所有见解，如有错误欢迎大家指出，我会第一时间纠正。有兴趣的朋友可以加微信：a944284742相互讨论技术。若是帮助到了你什么，一定要记得点赞！因为这是对我最大的鼓励。
行人检测0-00：LFFD-史上最新无死角详细解读：https://blog.csdn.net/weixin_43013761/article/details/102592374

知识预备

随着能力的提升，我发现自己阅读论文的能力在逐步增强，那么这个逼，怎么装给大家看呢？思来想去啊，决定今后每个项目，都使用白话为大家翻译解释，让你深刻理解作者的核心思想，我始终觉得，只有把你自己学会的知识，能给别人讲明白，那么，你才是真的学会了！牛逼就到这里了哈。
在看这篇论文的时候，大家需要预备俩个知识点，一个为感受野，一个为 anchor（描点），其中前者感受野，十分的好理解，我就不讲解了，后者 anchor，说实话，真的不是那么好理解的，所以编写了一篇针对anchor讲解的博客，如下：
深度解剖(5)：白话谈anchor（锚点），不懂来找我！
如果知道了anchor（锚点）大概是什么东西，那么我们就开始论文的翻译吧。

摘要

很多应用都会涉及到人脸检测，并且经常被部署到，计算能力和内存都比较差的边缘设备上（如嵌入式，或者移动端）。这篇论文主要提出了一种速度比较快，准确率也比较高的人脸检测算法。这种方法和传统的不一样，是没有anchor的，并且还是单个阶段完成检测。这里特别的说明一下，我们对目标检测的receptive field (RF:感受域)和 effective receptive field (ERF:有效感受域)做了深入的研究，如果不是很理解，没关系，继续往下看就了解了。

基于把某些层的RF(感受域)看做是自然的anchor，以及结合RF(自然的anchor=感受域)以及RF对应的步伐（就是当前feature map一个点，对应原图的多少个像素）这种思想，理论上可以检测一副图中大范围的人脸，哪怕那些人脸的尺寸都各不相同。受到ERF(有效感受域)和人脸缩放的启发，我们设计出了一个高效的，单阶段的人脸检测架网络。该网络的主要框架由一些公共的的网络层，以及8个分支组成，因此提高了检测速率。基于现在流行的人脸检测数据（WIDER FACE，FDDB）做了全面的实验对比，并且针对应用场景提出了一种新的评估方式。

这种新的测试方式把测试集分为3个类型：1.容易检测的（人脸比较大），2.中等难度的（人脸大小居中），3.比较难检测的（人脸比较小）。我们提出的这种网络模型，

在WIDER数据集上Val/Test的准确率分别是（针对各个难度）：
（简单）0.910/0.896，（中等）0.881/0.865，（困难） 0.780/0.770;

我们的网络运行速度非常的快（NVIDIA TITAN Xp: 131.45FPS at 640×480; NVIDIA TX2: 136.99 PFS at 160×120;Raspberry Pi 3 Model B+: 8.44 FPS at 160×120），模型只有9M大小。

Table 1（基于和WIDER数据集和前五的检测方法进行对比）：
在这里插入图片描述

1.介绍

人脸检测是计算机视觉一个重要的分支，很多应用场景都需要他的支持，如果人脸校正，人脸识别等。并且人脸检测经常被用在边缘设备上，比如手机或者嵌入式，甚至摄像头内部等等。这些设备的计算能力和内存大小都是有一定局限性的，但是在工业上，其对准确率和速度都有一定的要求。

目前一些最先进的人脸检测，在WIDER FACE数据集上已经达到了很高的准确率，但是其中大部方法，都是使用了模型大，参数多的网络框架，比如VGG，Resnet50/152，and Densenet121。这前五种方法的准确率展示在上图的Table 1中，可以看到他们的差距都会很微小，甚至实际应用都很难察觉到他们之间的差距。很显然，想通过更加复杂的模型去提高准确率，是没有必要的，因为即使提升了，速度也跟不上，并且很难落地。所以我们认为，为了在实在场景中更好的去使用人脸检测，应该是去平衡准确率和速度之间的关系。

最近的十年间，人脸检测的发展是非常快的，最早的是 Viola-Jones提出，使用手工提取特征，然后利用级联分类器（不理解也没有关系）。其中聚合通道的特点，是众所周知的。通过这种方法，很明显的提高了速度。但是他们依赖于手工提取特征，不是端到端的进行训练，导致检测的准确率不是很高。

但是近些年的CNN在WIDER FACE数据集上取得了很高的准确率，完胜传统模式。这些方法可以粗略的分成两个类别,分别为一个阶段和两个阶段。其中两个阶段的方法，包括了候选框的提取，以及局部回归，其中R-CNN就是比较一个经典的代表。一个阶段的方法，分类和box的回归是同步的，一般会结合anchor和多尺寸图像变换（图像金字塔）一起使用。在很多单阶段的检测中，anchor是网络中必不可少的部分。以往为了提高准确率，提出了很多复杂的网络模型，但是他们的速度是很慢的。

这这篇论文中，我们提出了一种不仅快，而且准确率也比较高的模型（Light and Fast Face Detec-LFFD），可以在边缘设备上部署。我