Deep Learning by Andrew Ng 学习笔记之人脸识别

人脸verification与人脸 recognition

  • verification输入为两张照片。
  • recognition输入为1张照片,检测此人是否在数据库中。

关于One shotlearning:

  • Why one-shot?
    • 简单的正常的learning,在数据库增大时softmax的结果会改变,因此会需要神经网络的变化
    • 简单的正常的learning,在数据量比较少时学习效果很差(training set太小)
  • One-shot有什么优点?
    • 只需要学习一个函数d,输入两张照片,输出一个差值,若小于某个threshold则为同一人。
    • 与数据库中图片多少无依赖关系。

Siamese Network

  • 产生原因:解决one shot learning问题
  • 实现原理:让两张图片通过同一个网络得到最后一个layer的两个vector,算两个vector之间的距离..
  • 网络的实现方式:让两张图片通过同一个网络,计算得到差值,若为同一个人,则希望差值尽量小;反之希望差值尽量大;从而进行反向传播。
  • Paper: DeepFace

FaceNet -- 提出针对face verification的one shot solution -- triplet loss

  • 符号:
    • A:anchor
    • P:正例(和anchor是同一个人)
    • N:负例(和anchor不是同一个人,但是是比较相近的人,to方便训练)
    • D(A, P) = ||F(A) - f(P)|| ^ 2
    • D(A, N) == ||f(A) - f(N)|| ^ 2
    • F(A) = output of last layer (e.g. softmax前的fc层),被视为image的encoding,这里假设f(x)是一个长度为128的fc层的输出。
    • Alpha: 称为margin,为了让模型不要输出全==0
  • Triplet loss:
    • Given 3 image, A,P,N,
      • L(A, P, N) = max( |F(A) - f(P)|| ^ 2 -  ||f(A) - f(N)|| ^ 2 + alpha, 0)
      • 源自于公式:
        • |F(A) - f(P)|| ^ 2  <=  ||f(A) - f(N)|| ^ 2
        • |F(A) - f(P)|| ^ 2 -  ||f(A) - f(N)|| ^ 2 <= 0
        • 不希望f(x)全为0所以在左边添加了alpha,alph大于0
    • 再对于所有的这样个m个三元组的loss求平均的到最终的loss function
    • 选取A,P,N三元组的方式,让A, N尽量接近,否则随机生成,d(A, P) + alpha <= d(A, N)的满足非常简单。
  • 通过这样的loss进行梯度下降学习image的encoding网络。
  • 绚练出one shot learning网络的方式 -- 确定一个三元组loss:L(A, P, N) =
  • Paper:FaceNet

DeepFace:把faceverification视为一个二分类网络

  • 使用Siamese网络,上下两张图片同时输入相同的网络得到两个encoding vector:f(x^(i)), f(x^(j))(假设长度128),将这两个神经元bind并输入到一个最终的output神经元里,得到y_pred,作为2分类结果。
  • 两个神经元的combine方式:可以是相应位置的元素的差的绝对值的和,可以是元素的差的平方。
  • 若应用到人脸recognition上,可以让DB中所有image都precompute得到他们的encoding vector,这样不用每次来了新的员工都需要计算所有的image的encoding vector。

猜你喜欢

转载自blog.csdn.net/weixin_42148236/article/details/80734956