计算机视觉笔记七:Person Re-Identification With Metric Learning Using Privileged Information

TIP2018的

right @IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 27, NO. 2, FEBRUARY 2018

吸引我的是其中应用的metric learning。我一直以为,metric learning其实和传统的dense prediction以及各种CNN背后的东西是一致的。你现在有这些东西,比方说一堆图片,那么机器怎么看待它们之间的差异?一种度量方式就创建了一个非欧空间,在什么样的理想空间,能够让机器的识别率爆表。很有意思。不过现有的度量学习本质上来讲是给维度加权,能量集中以及去噪。没达到理想的程度。

我花在abstract上的时间越来越多了,因为我发现,论文读到一半,可以回头看看abstract,佐证一下自己的思路。还有预见性,总之,一个好论文的abstract是作者思路的结晶,值得多读几遍。

1 abstract

本论文研究的领域是人脸再识别 ,比方说苹果手机的解锁,就是再识别你的脸。你要是画个大浓妆,指不定还能不能解锁。画个角度,换个表情,都会影响你的解锁(再识别)。

characteristic

  • logistic discriminant metric learning
  • exploit both original and auxiliary data(privileged information)
  • auxiliary information only avaliable in training(such as label in cnn)

目标:

学习到距离函数,例如输入两个feature告诉你多远。打个比方二维空间(0,0),(3,4)之间的度量函数就是二范数,于是结果就是5.

距离函数的学习:

利用privilege information建立locally adaptive decision rule

 现在不妨设origin数据分布在某个距离度量空间,privilege在另一个距离度量空间,那你现在就有两个距离度量方式,因为你有两个空间。这也包括了origin以及privilege都用通一种度量方式,在同一个空间。

样本点 O1,O2是origin的数据,P1,P2是privilege的数据。

DO(O1,O2) 与DP(P1,P2)之间的差距小。

(0,0),(3,4)分别是 O1,O2而3,12分别是P1,P2,那么DO(O1,O2)=5,DP(P1,P2)=9(直接做减法12-3),我现在要对我的数据找到两种新的度量方式(也就是两个metric function),让DO(O1,O2) 与DP(P1,P2)之间的差距小。比如把DP(P1,P2)从减法变成除法(12/3).

   哈哈不过我突发奇想另外一个问题:你计算DO(O1,O2) 与DP(P1,P2)之间的差距也是一种距离啊,也可以想点办法啊,后来又想不过就是Dd[DO(O1,O2) ,DP(P1,P2)].这就是三个度量的学习,不知道作者有没有简化到两个度量学习,还是说把Dd固定了下来,然后根据这个度量方式,调整DoDp,那么,可不可以固定两个度量方式,只学习一个。这能映射到数学上的什么问题?有点意思。拭目以待。

  

还有三句abstract就完事了:

Dp可以被认为是local decision threshold, and guide original space decision making。

探究一下complementation of mutiple feature representations .也就是说,privilege 是一样的针对不同多种feature的表达,设计不同的metric。需要看论文具体。

最后再优化一下,可以同时给出metric并且给出metric的权重。需要看论文具体。

好了到这里你就可以决定这个对你有用没用,要不要继续看下去了。

Introduction

人脸再识别是这样的,你再来一个新的人,数据库里面没有的新人,照片一部分给gallery,一部分给probe,你也得认得出来。所以这是有新样本的。和我们一般意义上的dense prediction、classification是不一样的。

主要与其他论文的不同点:

  1. 用的是local threshold,也就是priviledge信息产生的数值。
  2. 可以对比多个角度的特征,也就是分角度,一个角度学习一种度量方法。角度可以理解为相机的视角,特征的获取方式(某cnn,某手工)

正文开始

数据集

这就是本论文的数据集,可以看出来角度多,模糊,全身光照变化,所以识别率达不到苹果手机的程度。

前置传统的metric learning


第一个创新点,也是最主要的


左边的公式是改进后的,右边的是传统的metric learning。半正定当然是因为距离不能是负的。假设你学过线性代数。

主要就是将阈值从一个固定的数值,转变成了随着privilege data以及P变化而变化的阈值。这就是将privilege信息在训练阶段融入origin data。权重不是未知数。看下面的英文。


作者用了很好理解的老师同学比喻来帮助读者理解他的概念。本质来讲origin是学生,要被privilege引导,学生要受老师的影响




下面第二个创新点,用多种特征组合表达一个样本。


具体怎嘛求解参数




实验

实验部分的privilege选择以及feature的选择


Origin 特征GOG

Privilege特征LOMO+FTCNN


所以实际上privilege信息在测试阶段也是可以的到的。所以用的不是很恰当。

参数讨论beta

Beta很有说服力

做实验对比是否使用beta对结果造成的影响:提高对抗错误privileged信息的稳定性.



参数讨论lambda

大于0.1导致识别率大幅度下降

0.1导致回归快,但是陷入了局部最优



PCA降维

假如采用PCA处理origin data,反映了privilege信息对于不丰富origin的帮助
那么问题来了,假设只把origin
与privilege傻瓜连接起来,用传统
Metric learning,结果如何。
可能作用仅仅是缩小test时间。
作者说feature维度大可以防止

过拟合


进一步来讲,人脸的标签是弱标签。因为有多少人就有多少类别。他存在的意义更多的在于区分相似度。所以与度量学习的概念契合度很高。

特征之间距离的分布

那么问题来了既然
privilege信息能够很好的

进行区分了,何必折腾这么一大遭??没明白


之前对于VIPeR的对比图没这么强烈啊?



猜你喜欢

转载自blog.csdn.net/u013249853/article/details/80524272