机器学习笔记 - 局部敏感哈希简介

一、算法简述

        局部敏感散列 (LSH) 技术,可显著加快对数据的邻居搜索或近似重复检测。例如,这些技术可用于以惊人的速度过滤掉抓取网页的重复项,或者从地理空间数据集中对附近点执行近恒定时间查找。

         让我们快速回顾一下其他类型的哈希函数,哈希函数的传统用途是在哈希表中。哈希表中使用的哈希函数旨在将一段数据映射到一个整数,该整数可用于在哈希表中的特定存储桶中查找以检索或删除该元素。许多带有字符串键的容器(例如 JavaScript 对象或 Python 字典)都基于哈希表。尽管哈希表可能无法保证常时查找,但实际上它们有效地提供了这些查找。

        还有其他类的哈希函数。例如,SHA-1加密哈希函数设计为难以反转,如果要将某人的密码存储为哈希值,这将非常有用。像这样的哈希函数称为加密哈希函数。

        哈希函数通常具有以下关键属性:

        1、它们将某种类型的输入(如字符串或浮点数)映射到离散值(如整数)。

        2、它们的设计使两个输入将导致基于输入的关键属性的不同或相同的哈希输出。

        LSH 的适用方式如下:对位置敏感的哈希函数经过专门设计,因此对于两个靠近的输入值,哈希值冲突的可能性比距离很远输入值更有可能发生。正如对于不同的用例,安全哈希函数有不同的实现一样&#x

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/131527106
今日推荐