《山世光:深度化的人脸检测与识别技术》读书笔记

原文链接:http://www.leiphone.com/news/201610/rZ2Mn9UFF3x8FaEt.html

人脸识别过程

人脸识别的本质是对比两个照片是否是同一个人。这个过程可以分为以下几个步骤:

  • 确定人脸位置
  • 确定五官位置
  • 提取关键人脸区域
  • 用特征提取器把图像变成特征向量
  • 对比两个不同人脸的特征向量的相似度

在这里面其中最核心的三个步骤是:人脸位置的确定、五官位置的确定和特征提取器将图像转换为特征向量,这也是人脸识别中最本质的三个内容。

人脸识别近期发展特点

人脸识别近期发展的最大特点是人脸识别变得和狗脸识别、猫脸识别没有太大区别了,在技术上,不用把人脸识别特别来看待了。人脸识别能在过去的三四年里能有一个快速的发展得益于深度学习。
在深度学习之后,人脸识别实现了深度化。在计算机视觉领域,深度学习应用最好、最成功的就是卷积神经网络(CNN)。

卷积神经网络(CNN)

卷积神经网络大约是20世纪80年代出现的,到1998年这期间出现了一些卷积神经网络的雏形。1998年出现的卷积神经网络和现在的神经网络在本质上没有什么区别。

卷积神经网络实质上是对输入进行加权求和之后,去做一个非线性变化的过程。输入图像通过滤波器组进行非线性卷积,卷积后在每一层产生特征映射图,然后特征映射图中的值再进行加权求和并进行非线性变换。在此过程中这些像素在池化层被池化,最后得到输出值。

人脸检测技术

在深度学习技术之前,几乎所有人脸检测都是采用滑动窗口式的方法。即设计一个分类器,对于图片设计一个滑动的窗口,检测滑动窗口部分是否是人脸,然后对图像缩放后再检测。

物体检测内涵与思路

不管是人脸检测还是物体检测,都需考虑的两个问题是:

  • 有没有人脸
  • 人脸在哪里

2014年来的变迁

有没有人脸部分:
- 从人脸特征–分类器学习“两步法”转变为特征和分类器End-to-End学习
- 从二分类转变为多分类

人脸在哪里部分:

  • 从check所有可能位置和大小转变为只check可能位置和大小或者回归位置和大小(更准确)

基于深度学习的物体检测

在过去的几年里出现了一系列的方法,包括:

  1. Region CNN系列
    R-CNN →SPP R-CNN→Fast R-CNN→Faster R-CNN

  2. 回归系列
    YOLO

  3. 传统方法与深度方法结合
    FacenessNET
    Cascade CNN(coarse-to-fine)

R-CNN

R-CNN

关键点:

  1. Selective Search产生约2000个候选窗口
  2. 每个候选窗缩放到227*227(用CNN提取特征)
  3. SVM分类

缺点:
需要2000多次CNN过程,速度很慢。

原因:
大量CNN+SVM

SPP R-CNN

SPP R-CNN
原理:
在R-CNN基础上改进,只做一次全图CNN,如果图像大小不一样就用Spatial Pyramid Pooling方法。

缺点:
不够快,GPU也需要数秒,而且训练比较繁琐。

Fast R-CNN

Fast R-CNN
原理:
比SPP R-CNN更简单的pooling策略,每个候选窗口下采样
多任务损失函数由SVM改为Softmax分类

Faster R-CNN

Faster R-CNN
原理:
用Region Proposal Networks替换Selective Search,采用anchor boxes机制,在最后层卷积图上滑窗,用K(特征图数)维特征进行分类和BB回归。
优点:
精度高,速度快(5fps GPU上)。

YOLO(You Only Look Once)

YOLO

FacenessNET

FacenessNET

Cascade CNN(coarse-to-fine)

Cascade CNN

猜你喜欢

转载自blog.csdn.net/studyeboy/article/details/54408447