哈希学习算法之三：哈希学习五个要点 - 代码天地

哈希学习算法之三：哈希学习五个要点

其他 2018-11-09 17:59:25 阅读次数: 0

了解到哈希学习是在哈希编码阶段进行的，参考上一节基于hash的ANN框架
哈希学习的目的是：学习一个复杂的哈希功能，y=h(x)，把一个输入点x映射成哈希码y，且满足q点的最近邻尽可能与实际结果相近，并且在编码空间的查询也是有效的。要满足这些要求，需考虑以下5个部分：哈希函数、编码空间的相似性、输入空间的相似性、损失函数、优化技术。

一、哈希函数

哈希函数可以是基于线性的、核函数、球面函数、深度神经网络、无参函数。

1.线性哈希函数
在这里插入图片描述
当z>=0时，sgn(z)=1，当z<0时，sgn(z)=-1（或0）。w是映射向量，b是偏移量。

2.核哈希函数
在这里插入图片描述
st表示从数据集中随意获得的代表样本或者是数据集的聚类中心，wt表示权重。

3.无参哈希函数
在这里插入图片描述
常用于基于量化的方案，其中c1,c2…ck表示中心点，可由k-means等得到，y是正整数。距离（例如汉明距离）直接从哈希码中计算得到，且使用对应中心的哈希码计算距离。

总结：线性函数可以被有效评估，核函数和无参哈希由于可扩展性，他们的查询准确性较高。哈希函数一般不用做哈希学习的分类标准，是因为线性哈希函数都能被扩展为非线性哈希函数。

二、相似性

相似性包括编码空间相似性、输入空间相似性。

2.1 输入空间相似性
在输入空间中，任意一对点（xi,xj）之间的距离d主要是欧式距离，||xi-xj||2，相似性s被定义为关于距离d的函数，典型函数是高斯相似性、余弦相似性、语义相似性（按顺序）
在这里插入图片描述

语义相似性是二值化的，如果两个点属于同一类，则s=0,反之为1.

2.2 编码空间相似性
在编码空间中，两个点（yi，yj）之间的距离主要是汉明距离，定义是不同点的数量，公式如下：
在这里插入图片描述

三、损失函数

损失函数的设计规则是保持相似性顺序，例如，使从哈希码得到的最近邻查询结果和从输入空间获得的真实查询结果最小化。主要研究的有成对相似性保持、多相似性保持、隐式相似性保持、基于量化的方法。

四、优化技术

哈希函数参数优化来自两方面：1.sgn函数 2.时间复杂性很高

五、分类

根据以上五个方面，现有哈希学习函数分类可分为：成对相似性保持、多相似性保持、隐式相似性保持、和量化方法。

注：本文内容来源：A Survey on Learning to Hash如果是入门级同学，不建议看此篇论文

猜你喜欢

转载自blog.csdn.net/vainfanfan/article/details/83750878

哈希学习算法之三：哈希学习五个要点

哈希学习算法前序：五个问题

算法学习——哈希

哈希算法学习

哈希表&哈希算法&Kmp学习总结

算法 -- 哈希算法学习

哈希函数的学习算法整理

哈希学习

算法学习——字符串哈希（哈希算法）

数据结构与算法学习--哈希

数据结构和算法学习笔记三_搜索算法_哈希表

哈希树-学习中

哈希学习笔记

哈希学习代码

简单哈希表学习

IPFS学习-哈希

Redis学习（二）哈希

HASH（哈希表）学习

学习笔记：哈希表

哈希表学习

机器学习算法之三——分类（三）

《算法与数据结构》学习笔记18---哈希算法

哈希学习算法之二：基于hash的ANN框架

哈希学习算法之一：ANN背景介绍

数据结构学习笔记七（哈希算法）

算法与数据结构学习（32）-哈希表

哈希算法学习记录 MD5为例

《算法导论》学习（十四）----散列表（哈希表）（C语言）

哈希算法

机器学习算法之三——分类（四）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)