图像检索入门：CVPR2015《Deep Learning of Binary Hash Codes for Fast Image Retrieval》

原文代码：https://github.com/kevinlin311tw/caffe-cvprw15
Tensorflow代码：马上添加

研究背景

在基于内容的图像检索（CBIR）中，使用深度学习的最为简单的方式是使用神经网络特征层的输出用于计算空间距离来判断相似度，但这样会导致浮点型数据储存消耗和维度灾难。

实际策略是使用近似最近邻（ANN）技术或基于Hash的方法来进行加速。这些方法将高维特征投影到较低维度空间，然后生成紧凑二进制代码。所产生的二进制代码，可以通过二进制模式匹配或汉明距离测量来执行快速图像搜索，这显着降低了计算成本并进一步优化了搜索效率。

研究方法

本文引入了一种简单有效的监督学习框架适用于图像检索；通过网络模型的微调，能够同时学习区域特定的图像表示和一系列Hash值；提出的方法超过了现有的baseline；本文方法通过“点对”的方式学习hashing编码，相比于传统的“成对”策略更易于扩展。具体研究方案如下：

1.在ImageNet数据集上使用Alexnet模型进行有监督的预训练；

2.在Alexnet模型上添加隐藏层，并利用上一步得到的权重在自己的数据集上进行微调；

3.得到图像的特征矩阵，Hash值和标签后，通过分层深度搜索进行图片检索。

如下图所示：

1.网络设置

由于输入的图像经过网络F6层−F8层得到的信息在图像分类，检索中有很大作用。但是这些信息又是高维（上千维）的特征，这些特征直接用于检索，将会非常耗时。直观的想法就是把这些有效的特征用来压缩变成二进制特征，来进行计算海明距离。所以，作者修改了网络结构，在F7和F8之间加入了一层隐藏层（全连接层），该层主要是用于学习48/128位的Hash值。

2.模型训练

使用在ImageNet数据集上学习的参数来初始化模型的前7层参数，对隐藏层和F8层的参数进行随机初始化，在自己的数据集上训练模型。

3.图像检索

由于浅层学习了图像的局部特征，深层学习了语义信息，所以作者提出了一个粗粒度到细粒度的检索策略，首先检索语义信息(Hash值)，得到相似的候选集，然后再从候选集中利用局部特征进行检测。

粗粒度检索

粗糙检索是用H层的二分哈希码，相似性用hamming距离衡量。对于给定的图像 $I$ ，通过模型学习到局部特征(F7层) $V$ ，Hash值(隐藏层)和标签，其中Hash值记为 $OUT\left ( \left H \right )$ ，隐藏层有 $h$ 个节点，即Hash值共有 $h$ 位，通过设定阈值对隐藏层的输出进行二值化：