Learning a Similarity Metric Discriminatively, with Application to Face Verification(孪生网络学习笔记)

有个小故事第一次看到Siamese network时候,并不知道它是什么意思,用谷歌翻译出来暹罗这两个字,更懵逼了。看了https://www.jianshu.com/p/92d7f6eaacf5这篇论文才明白了渊源。Siam是古时候泰国的意思,而今天人们用siamese来代表双胞胎,那么为什么呢?有这么一个故事:

十九世纪泰国出生了一对连体婴儿,当时的医学技术无法使两人分离出来,于是两人顽强地生活了一生,1829年被英国商人发现,进入马戏团,在全世界各地表演,1839年他们访问美国北卡罗莱那州后来成为“玲玲马戏团” 的台柱,最后成为美国公民。1843年4月13日跟英国一对姐妹结婚,恩生了10个小孩,昌生了12个,姐妹吵架时,兄弟就要轮流到每个老婆家住三天。1874年恩因肺病去世,另一位不久也去世,两人均于63岁离开人间。两人的肝至今仍保存在费城的马特博物馆内。从此之后“暹罗双胞胎”(Siamese twins)就成了连体人的代名词,也因为这对双胞胎让全世界都重视到这项特殊疾病。(至于他们是怎么连体人分开生孩子的,嘻嘻,各位脑补)

然后我就找到了《Learning a Similarity Metric Discriminatively, with Application to Face Verification》对于孪生网络应用比较出名的paper了,下面主要记录下我的学习过程:

这篇文章将孪生网络用于生成脸部特征向量用于人脸识别,一个好的人脸识别系统拥有两个判别标准:错接收和错拒接的概率,这两个概率都要小,才能满足好的人脸网络的要求。

作者在文中采用的方法是建立一个可以训练的模型:模型的目的是将原始脸的数据映射到低维的空间,并且让同一个点之间的距离尽量的小,不同脸之间的距离越大越好。学习相似性矩阵的提取,利用的就是训练一个包含两个共享权重的结构相同的卷积网络。网络的结构如下所示。

X1,X2是网络的输入,Y作为同时对应的标签,Y=0如果X1,X2属于同一个人,否则Y=1.而W则是两个孪生网络共享的参数,而Gw(X1),Gw(X2)则负责将原始图像向特征空间转化,然后建立一个叫能量方程的公式,计算X1和X2之间的相关性:

给定一对正样本和负样本如果他们能够满足下述的定理1,则他们在向一个我们意愿的方向表现。

正数m可以被视为一个阈值。

本文中网络的损失函数定义为:

其中(Y,X1,X2)是第i个样本,由一对图片和一个相应的标签构成。L1,LG分别是对应于正负样本对的空间损失函数,他们的定义应该遵循这样一个原则,在L优化的过程中,正样本对的能量函数应该减小而负样本对的能量函数应该增大。一个可行的方法是让LG递增,L1递减。但是存在不止一种的优化方式。本文中采取的是考虑一个训练组,由一个正样本和负样本对组成,定义损失函数如下:

我们假设H在他的两个参数上是凸函数,并不是说在W上。我们还假设存在一W让定理一成立。

所以推导出定理2:

这个定理保证了我们对于H的优化与W有关,并且与定理一原理一致。由于如下图所示

H的最限制存在与无穷处,所以下面的定理是足够的:

为了证明定理三,我们提出且证明了下属理论:

令H在定义域内是凹函数,并且在极限处由极小值。假设存在一个W对于一个单独的点满足定理一。如果在定理三的条件下,然后在W下求H的最小值会找到一个W满足定理一。

证明:建立一个基于的坐标系,如下图所示:

然后令两个半开函数用HP1和HP2表示。我们在W的范围内,在定义域内最小化H。R是定义域对于W的范围映射出来的空间,也可以理解为上图中的封闭虚线部分。在大多数情况下,R是非凸的,并且可能存在于坐标系中的任何地方。然而在我们的假设中,至少存在一个W满足定理一,所以我们可以判断HP1和R肯定存在交集。为了证明定理三,我们又必须证明至少在交集中存在一个点可以使H取得最小值。

作为分界线上的这个点,可以令H取得最小值,可以表示成下面的样子:

因为对于分界线margin上的所有点H的梯度都是负的,并且指向HP1的方向。通过H的凸性质,我们可以得出这样的结论:

即HP1中任意区域H的值都大于margin上任意点对于H的值。假设存在一个这样的点与距离为,并且这个点在HP1内,这样就可以表示为这个点:

利用泰勒展开,上面的公式又可以写为:

通过定理三,右边式子的第二个部分是负的,所以对于足够小的

所以一定存在一个点在HP1与R的交界处,在那个点损失函数比R和HP2中的任何部分都要小。

所以最后将损失函数定义为:

这篇文章中关于孪生网络的部分其实挺好懂的,但是后面关于损失函数的定义和推导部分,看的就有点晕晕的,所以写的也有点不太满意,如果以后有时间,我会回过头来看这篇文章,争取把他表达的清楚一点,如果有很明白的大神欢迎交流指正。

猜你喜欢

转载自blog.csdn.net/weixin_40955254/article/details/81070547