人脸识别-DeepVisage: Making Face Recognition Simple Yet With Powerful Generalization Skills

DeepVisage: Making Face Recognition Simple Yet With Powerful Generalization Skills

DeepVisage:利用强大的泛化能力使人脸识别更简单

作者在摘要中总结了目前人脸识别算法的一些思路,但是目前流行的思路都需要额外的工作量或者数据,作者认为只有identity-label的数据就可以进行训练。文章提出用残差网络结构加上Feature normalization训练人脸识别网络。

作者在引言中分析了近几年人脸识别算法研究的4个方向:

  1. loss function 损失函数:提出各种使特征更加具备分辨力的损失函数,比如A-Softmax、Triplet loss、NromLoss、SpherLoss等等,几年关于人脸精度提升的一种范式方法了。
  2. fine-tune CNN :在各种数据集上进行微调,相当于靠大量数据,但是这样的模型泛化能力不强。
  3. metric learning 度量学习:度量学习算是一个比较新颖的类型,但是度量学习需要特定的训练数据,而且有时候度量学习不一定能提升精度。其实就我理解而言,从度量学习上提升应该是可行的,但是作者这篇文章的思路是越简单的训练越好,所以没有考虑度量学习。
  4. concatenating features from multiple CNNs 多模型特征拼接:用多个CNN网络提取特征,然后对特征进行拼接耦合。这个我做过,将facenet的特征和vgg2的特征拼成一个长特征,效果还真的提升了。但是有一点需要注意的是,如何保证每个CNN模型提取特征的差异性。

在对目前的人脸识别算法分析的基础上,作者提出的是仅仅用identity-label的数据,用softmax来训练一个好的CNN网络,也就是越简单越好,不辅助以其他数据和方法。

本文的方法

作者选取的网络结构是残差网络结构,但不是流行的框架。网络结构如下图所示:
CNN model
里面比较特殊的是FN层,Feature Normalization,其实是Batch Normalization的一种特殊形式,主要可以加速网络的收敛。
Pre-process:包括3个预处理步骤,

  1. face detect via MTCNN
  2. normalize by 2D similarity transformation
  3. convert to grayscale

experiments

作者在4个数据库上进行了测试分别是LFW,IJB-A,YTF,CACD
都取得了state of art的水平

猜你喜欢

转载自blog.csdn.net/alfred_torres/article/details/83184145