Contrastive Loss 对比损失函数及梯度的计算

Contrastive loss 最初源于 Yann LeCun “Dimensionality Reduction by Learning an Invariant Mapping” CVPR 2016。
该损失函数主要是用于降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。同样，该损失函数也可以很好的表达成对样本的匹配程度。

Contrastive Loss 定义

在caffe的孪生神经网络（siamese network）中，其采用的损失函数是contrastive loss，这种损失函数可以有效的处理孪生神经网络中的paired data的关系。contrastive loss的表达式如下：

L (W, (Y, X_{1}, X_{2})) = \frac{1}{2 N} \sum_{n = 1}^{N} Y D_{W}^{2} + (1 - Y) m a x (m - D_{W}, 0)^{2}

$L(W, (Y, X_1, X_2))=\frac{1}{2N}\sum_{n=1}^NYD_W ^2+(1-Y)max(m-D_W,0)^2$
其中

D_{W} = | | X_{1} - X_{2} | |_{2} = (\sum_{i}^{N} (X_{1}^{i} - X_{2}^{i})^{2})^{\frac{1}{2}}

$D_W=||X_1 - X_2||_2 = (\sum^N_i{(X^i_1 - X^i_2)^2})^\frac{1}{2}$ ，代表两个样本特征

X_{1}

$X_1$ 和

X_{2}

$X_2$ 的欧氏距离，Y为两个样本是否匹配的标签，Y=1代表两个样本相似或者匹配，Y=0则代表不匹配，m为设定的阈值。

观察上述的contrastive loss的表达式可以发现，这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。

当Y = 1（即样本相似时），损失函数只剩下 $L_S = \frac{1}{2N}\sum_{n=1}^NYD_W ^2$ ，即原本相似的样本，如果在特征空间的欧式距离较大，则说明当前的模型不好，因此加大损失。
当Y = 0（即样本不相似时），损失函数为 $L_D = \frac{1}{2N}\sum (1-Y)max(m-D_W,0)^2$ ，即当样本不相似时，其特征空间的欧式距离反而小的话，损失值会变大，这也正好符号我们的要求。

[注意这里设置了一个阈值ｍargin，表示我们只考不相似特征欧式距离在０～ｍargin之间的，当距离超过ｍargin的，则把其loss看做为０(即不相似的特征离的很远，其loss应该是很低的；而对于相似的特征反而离的很近，我们就需要增加其loss，从而不断更新成对样本的匹配程度)]

这张图表示的就是损失函数值与样本特征的欧式距离之间的关系，其中红色虚线表示的是相似样本的损失值，蓝色实线表示的不相似样本的损失值。

梯度计算

论文中使用stochastic gradient descent 来不断更新 $D_W$ ,不断减小loss，更好表达成对样本的匹配程度。
(这里我们先忽略累和操作，后面自己加上即可)

Y = 1（即样本相似时），损失函数为 $L_S = \frac{1}{2N}\sum_{n=1}^ND_W ^2$ ，此时计算梯度为：
$\frac{\partial L_{S}}{\partial W} = D_{W} \frac{\partial D_{W}}{\partial W}$ $\frac{\partial L_S}{\partial W} = D_W\frac{\partial D_W}{\partial W} \\$

即分别对 $X_1$ 和 $X_2$ 求偏导，更新梯度 :

\frac{\partial L_{S}}{\partial W} = {\begin{array}{rcl} (101) & \frac{\partial L_{S}}{\partial X_{1}} = D_{W} \frac{\partial D_{W}}{\partial X_{1}} = D_{W} \frac{\partial}{\partial X_{1}} | | X_{1} - X_{2} | |_{2} = D_{W} \frac{X_{1} - X_{2}}{| | X_{1} - X_{2} | |_{2}} = X_{1} - X_{2} & , D_{W} > m \\ (102) & \frac{\partial L_{S}}{\partial X_{2}} = D_{W} \frac{\partial D_{W}}{\partial X_{2}} = D_{W} \frac{\partial}{\partial X_{2}} | | X_{1} - X_{2} | |_{2} = D_{W} \frac{- (X_{1} - X_{2})}{| | X_{1} - X_{2} | |_{2}} = - (X_{1} - X_{2}) & , D_{W} < m \end{array}

$\frac{\partial L_S}{\partial W} = \left\{ \begin{eqnarray} &&\frac{\partial L_S}{\partial X_1} = D_W\frac{\partial D_W}{\partial X_1} = D_W\frac{\partial}{\partial X_1} ||X_1 - X_2||_2 = D_W\frac{ X_1-X_2}{||X_1-X_2||_2} = X_1 - X_2 \ &, D_W > m \\ &&\frac{\partial L_S}{\partial X_2} = D_W\frac{\partial D_W}{\partial X_2} = D_W\frac{\partial}{\partial X_2} ||X_1 - X_2||_2 = D_W\frac{ -(X_1-X_2)}{||X_1-X_2||_2} = -(X_1 - X_2) &, D_W < m \end{eqnarray}\right.$

Y = 0 （即样本不相似时），损失函数为 $L_D = \frac{1}{2N}\sum (1-Y)max(m-D_W,0)^2$ ，此时计算梯度为 :

$\frac{\partial L_{D}}{\partial W} = {\begin{matrix} 0 & , D_{W} > m \\ - (m - D_{W}) \frac{\partial D_{W}}{\partial W} & , D_{W} < m \end{matrix}$ $\frac{\partial L_D}{\partial W} = \left\{ \begin{matrix} &0 &, D_W > m \\ &-(m - D_W)\frac{\partial D_W}{\partial W} &, D_W < m \end{matrix}\right.$

同理，当 $D_W < m$ 时，分别对 $X_1$ 和 $X_2$ 求偏导：

\frac{\partial L_{D}}{\partial W} = {\begin{array}{rcl} (103) & \frac{\partial L_{D}}{\partial X_{1}} = - (m - D_{W}) \frac{\partial D_{W}}{\partial X_{1}} = - (m - D_{W}) \frac{\partial}{\partial X_{1}} | | X_{1} - X_{2} | |_{2} = - (m - D_{W}) \frac{X_{1} - X_{2}}{| | X_{1} - X_{2} | |_{2}} = - (m - D_{W}) \frac{X_{1} - X_{2}}{D_{W}} \\ (104) & \frac{\partial L_{D}}{\partial X_{2}} = - (m - D_{W}) \frac{\partial D_{W}}{\partial X_{2}} = - (m - D_{W}) \frac{\partial}{\partial X_{2}} | | X_{1} - X_{2} | |_{2} = - (m - D_{W}) \frac{- (X_{1} - X_{2})}{| | X_{1} - X_{2} | |_{2}} = - (m - D_{W}) \frac{- (X_{1} - X_{2})}{D_{W}} \end{array}

$\frac{\partial L_D}{\partial W} = \left\{\begin{eqnarray} &&\frac{\partial L_D}{\partial X_1} = -(m - D_W)\frac{\partial D_W}{\partial X_1} = -(m - D_W)\frac{\partial}{\partial X_1} ||X_1 - X_2||_2 = -(m - D_W)\frac{ X_1-X_2}{||X_1-X_2||_2} = -(m - D_W)\frac{ X_1-X_2}{D_W} \ \\ &&\frac{\partial L_D}{\partial X_2} = -(m - D_W)\frac{\partial D_W}{\partial X_2} = -(m - D_W)\frac{\partial}{\partial X_2} ||X_1 - X_2||_2 = -(m - D_W)\frac{ -(X_1-X_2)}{||X_1-X_2||_2} = -(m - D_W)\frac{ -(X_1-X_2)}{D_W} & \end{eqnarray}\right.$

Spring Model Analogy 弹簧模型类比

弹簧模型公式：

F = - K X

$F = -KX$
(F表示两点间弹簧的作用力，K是弹簧的劲度系数，X为弹簧拉伸或收缩的长度，弹簧静止状态时X=0)

论文中将该contrastive loss损失函数类比于弹簧模型：将成对的样本特征，使用该损失函数来表达成对样本特征的匹配程度。成对的样本特征之间（类比于图中的一个个点），我们假设这些点之间都有一个弹簧，弹簧静止时长度为０，点对之间无作用力。①对于样本相似的特征，相当于其间的弹簧产生了正位移Ｘ(X < m)，即弹簧被拉伸了X的长度，此时两个相似特征（点）之间存在吸引力。②对于样本不相似的特征，相当于其间的弹簧产生的了负位移，即弹簧被压缩了，此时两个不相似特征之间存在排斥力。注意弹簧的特性：当两点之间弹簧位移超Ｘ>m时，此时，弹簧发生形变，此时两点之间视为没有吸引力了。具体如下图所示：

结合上面求梯度的公式也可以很好的理解该损失函数的思想，上面的 $\frac{\partial L_S}{\partial W}$ 和 $\frac{\partial L_D}{\partial W}$ 代表两点间弹簧的作用力F， $\frac{\partial D_W}{\partial W}$ 对应弹簧的劲度系数， $D_W$ 和 $-(m - D_W)$ 代表弹簧的缩放位移。
这里写图片描述
上图显示了类比的弹簧系统。实心圆表示与中心点相似的点。空心圆圈代表不同的点。弹簧显示为红色曲折线。作用在点上的力以蓝色箭头显示。箭头的长度近似给出了力的强度。在右侧的两个图中，x轴是距离 $D_W$ ，y轴是损失函数的值。（a）中显示使用仅吸引attractonly弹簧连接到相似点的点。（b）表示相似点对的损失函数及其梯度。（c）表示该点仅与半径为m的圆内的不同点连接，仅具有m-repulse-only排斥弹簧连接到不相似的点。（d）显示不相似点对相关的损失函数及其梯度。（e）显示一个点被不同方向的其他点拉动，形成平衡的情况。

Reference：