Supervised Hashing with Kernels

Notation

该论文中应用到较多符号，为避免混淆，在此进行解释：

n：原始数据集的大小

l：实验中用于监督学习的数据集大小（矩阵S行/列的大小）

m：辅助数据集，用于得到基于核的哈希函数

r：比特位数量/哈希函数的个数

1. Introduction

先前的哈希检索方法，要么精度低，要么目标函数过于复杂导致导致训练慢。在大规模的图像数据检索中，这些方法就不太适用。先前的哈希方法都是对汉明距离进行直接优化，但是因为汉明距离是nonconvex和nonsmooth，难以优化。在本文中，作者利用汉明距离和编码内积等价的特点，得到了一个非常高效易于优化的目标函数。同时，作者利用的内积的可分性，设计了一个贪婪算法逐比特位得对哈希函数进行求解。此外，为了适应线性不可分的数据，作者还应用了基于核的公式。得到了Kernel-Based Supervised Hashing(KSH)。并在CIFAR-10和TINY数据集上与无监督、半监督、监督等多种哈希方法进行比较，证明了KSH具有最好的表现。

2. Kernel-Based Supervised Hashing

2.1 Hash Functions with Kernels

论文利用基于核的哈希函数，解决了原始数据线性不可分的问题。对应的哈希函数如下：

屏幕快照 2018-10-06 下午8.22.04

该哈希函数由Kernelized Locality-Sensitive Hashing（KLSH）推导而来。查阅了下这篇文献，整个核哈希函数的推导过程大致如下：两个数据点间的相似性可由向量内积$sim(x_i, x_j) = (x_i^{T}x_j) / (||x_i||_2||x_j||_2)$来表示，为了解决原始数据的线性不可分问题，KLSH引入了核函数，于是得到了：

屏幕快照 2018-10-06 下午8.30.03

之后，经由均值、方差、特征值分解等等一系列的代数变换，得到了上述基于核的哈希函数。

扫描二维码关注公众号，回复： 3558057 查看本文章

In order to maintain efficiency and to maintain sublinear time searches, we want p to be much smaller than n. For example, $p = O(\sqrt n)$would guarantee that the algorithm maintains sublinear search times.

为了确保线性的搜索速度，KLSH中建议m（p）的的取值为$O(\sqrt n)$。

2.2 Manipulating Code Inner Products

在监督学习中，通过类别标签信息，原始数据集$X$可以划分为$M$和$C$两个集合，其中$M$中的数据点都是相似的，$C$中的数据点都是不相似的。通过对$X$进行部分采样，取$l$个样本构造相似矩阵$S$如下：

屏幕快照 2018-10-12 上午11.56.57

我们的目标是通过相似矩阵优化得到具有局部敏感特征的哈希函数，但是直接对汉明距离$D_h(x_i,x_j)=|{k|h_k(x_i)≠h_k(x_j),1≤k≤r}|$进行优化在数学上是难以求解的。因此，论文采用了code inner products来进行优化。code inner products可以如下表示：

屏幕快照 2018-10-12 下午12.07.52

由于r为码长是个常熟，因此从上式可以看到code inner products等价于汉明距离，存在一一映射的关系，我们可以通过优化code inner products的方法进而优化汉明距离。得到目标函数如下：

屏幕快照 2018-10-12 下午12.12.20

其中矩阵$H$表示向量$x$的哈希编码。接着再通过引入2.1节中的核哈希函数，得到最终目标函数如下：

屏幕快照 2018-10-12 下午12.16.39

2.3 Greedy Optimization

通过简单的代数变换，可以得到目标函数如下：

屏幕快照 2018-10-07 上午11.03.05

其中$a_k$为第k个哈希函数。在优化时，逐比特位得进行优化，即先优化$a_1、a_2 ... a_{k-1}$，然后再之前的基础上再优化$a_k$。在此定义一个残差矩阵为：

屏幕快照 2018-10-07 上午10.33.38

显然，有$R_0 = rS$。因此，哈希函数可以通过最小化如下损失函数进行求解：

屏幕快照 2018-10-07 上午10.36.20

通过去掉常数项，可以得到哈希函数$a_k$的目标函数为：

屏幕快照 2018-10-07 上午10.38.05

Spectral Relaxation：因为此时的目标函数时非凸的，难以进行优化，因此论文应用了Spectral relaxation trick的方法，去掉了sgn函数，得到目标函数如下：

屏幕快照 2018-10-07 上午10.53.22

显然，通过变换，我们可以得到一个广义特征值问题$K_l^TR_{k-1}K_la = \lambda K_l^TK_la$。通过求解最大特征值对应的特征向量，并进行适当的尺度缩放以满足限制条件，我们可以得到$a$的解。但是，这个方法在l非常大时，优化结果不理想，因此KSH仅将这部作为$a_k$的初始化选择。

Sigmoid Smoothing：通过用sigmoid函数替换sgn函数，我们可以对目标函数进行优化。之后通过牛顿梯度下降方法，可以得到$a_k$的最优解（局部）。

算法流程如下：

屏幕快照 2018-10-07 上午11.00.26

在算法运行时，先初始化$R_0 = rS$，在这个基础上逐步对$a_1、a_2 ... a_k$等进行优化。因为有着Spectral Relaxing中限制条件屏幕快照 2018-10-07 上午10.41.49 的约束，因此在一开始对$a_1$进行优化时，经由广义特征值求解、梯度下降之后得到的哈希函数$a_1$不会使得$R_0 = rS$，优化结果只与$a_1$本身相关，和其他哈希函数无关。

从本质上看，$rS$ 的信息是由r个哈希函数组合而成的，且哈希函数之间互相独立不相关。因此，在对$a_1$进行优化之后，我们可以从$rS$中去除掉哈希函数$a_1$相关的信息，继而对剩下的哈希函数进行优化。整个算法的思想不是直接对全局的目标函数进行优化，而是尽可能贪心地、逐比特位进行优化，这也是为什么算法称为Greedy Optimization的原因（个人理解）。

3. Experiments

在对查询点进行查询时，将汉明距离小于一定距离的图像作为查询结果返回。

metric distance neighbors

当距离小于一定阈值时，即认为两个数据是相似的。
semantically similar neighbors

只有当两个属于的标签一致时，才认为两个数据是相似的。具有更强的置信度。
Hashing table的构造

个人理解：m个数据，经过c个哈希函数映射后，得到矩阵$H∈R^{m*c}$，矩阵H的第i行代表第i个数据对应的哈希编码，矩阵的第j列代表哈希表的第j个bucket。

评价标准：

precision

对于一个查询，返回了一系列的文档，正确率指的是返回的结果中相关的文档占的比例，定义为：precision=返回结果中相关文档的数目/返回结果的数目。
recall

召回率则是返回结果中相关文档占所有相关文档的比例，定义为：Recall=返回结果中相关文档的数目/所有相关文档的数目。
mAP

正确率只是考虑了返回结果中相关文档的个数，没有考虑文档之间的序。对一个搜索引擎或推荐系统而言返回的结果必然是有序的，而且越相关的文档排的越靠前越好，于是有了AP的概念。对一个有序的列表，计算AP的时候要先求出每个位置上的precision，然后对所有的位置的precision再做个average。如果该位置的文档是不相关的则该位置 precision=0。
the success rate of hash lookup

屏幕快照 2018-10-06 下午9.38.32

4. Conclusions

KSH算法具有以下三个优点：

利用核函数解决了原始数据不可分的问题；
设计了一个基于coder inner products的目标函数，易于优化；
利用贪心算法逐比特位得求解方法。