论文笔记 ——《Kernelized Locality-Sensitive Hashing for Scalable Image Search》

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/oniy_/article/details/81779425

前言:

  1. 论文的链接地址没有贴了;
  2. 最近在做视觉搜索相关的哈希技术,顺便写下自己的笔记,方便以后复习;
  3. 文章是随笔的,所以可能会有不全的地方,所以有读者看到不懂的地方可以去看论文原文;
  4. 博文的目录是按照论文的目录来记录的;

Introduction

给定核函数κ(xi,xj) = φ(xi)^Tφ(xj)和数据集[含有 n 个数据】。提出问题怎么才能快速进行近似检索?

our hash functions involve computing random projections; however, unlike standard LSH, these random projections are constructed using only the kernel function and a sparse set of examples from the database itself. Our main technical contribution is to formulate the random projections necessary for LSH in kernel space. Our construction relies on an appropriate use of the central limit theorem [21], which allows us to approximate a random vector using items from our database.
 


Related Work

review related work in fast search algorithms and their application for visual search problems
因为比较水,就没有翻译了!


Background: Locality-Sensitive Hashing

  • 主要思想:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小
  • hashing functions:

1)如果d(x,y) ≤ d1, 则h(x) = h(y)的概率至少为p1;
2)如果d(x,y) ≥ d2, 则h(x) = h(y)的概率至多为p2;

其中d(x,y)表示x和y之间的距离,d1 < d2, h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。

对上面的公式总结就是:

 其中常用的sim( · )函数【即二个数据相似度的度量函数,更加详细的数据相似度的比较见其他的笔记,有时间就贴出来】

  • 余弦相似度
  • 汉明距离
  • 欧式距离

论文中给出了2个度量函数:

根据其他论文文献和度量函数2【见上】可以推导出【不需要完全推导出来,可以理解为文章的相似性度量就是用这个公式】

  1. sim({x}_i,{x}_j) = x_{i}^{T} \cdot {x_{j}}

Kernelized Locality-Sensitive Hashing

The random hyperplane hashing method【随机投影法】 中的X向量是确切的,所计算哈希值是比较简单的,但是现在KLSH中我们假设输入的是φ(x)【上面公式中的x】而且underlying embedding is unknown or expensive to compute

我们只能通过核函数【sim(x_i,x_j) =K(x_i,x_j)=\phi (x_i)^t\phi (x_j)】的计算来取得数据,即:通过核函数来计算 {r}^t\phi (x) 【度量函数2中的 if r^t x > 0这个条件】

The main idea of our approach is to construct r as aweighted sum of a subset of the database items.

待续...
 


引用文献:

[21] J. Rice. Mathematical Statistics and Data Aanalysis. Duxbury Press, 2001

猜你喜欢

转载自blog.csdn.net/oniy_/article/details/81779425