算法笔记近似最近邻查找（Approximate Nearest Neighbor Search，ANN）

物联网 2023-09-09 17:34:26 阅读次数: 0

1 介绍

精准最近邻搜索中数据维度一般较低，所以会采用穷举搜索，即在数据库中依次计算其中样本与所查询数据之间的距离，抽取出所计算出来的距离最小的样本即为所要查找的最近邻。
- 当数据量非常大的时候，搜索效率急剧下降。
- ——>近似最近邻查找（Approximate Nearest Neighbor Search，简称 ANN）是一种在大规模数据集中查找与给定查询点最相似（或“最近”）的数据点的优化算法。
与精确最近邻查找不同，近似最近邻查找不保证找到绝对最近的邻居，但它通常比精确方法更快，尤其是在高维数据空间中。
- 在牺牲可接受范围内的精度的情况下提高检索效率
近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性，通过对数据分析聚类的方法对数据库中的数据进行分类或编码，对于目标数据根据其数据特征预测其所属的数据类别，返回类别中的部分或全部作为检索结果。

2 KD 树

算法笔记：KD树_UQI-LIUWJ的博客-CSDN博客

3 球树

算法笔记：球树_UQI-LIUWJ的博客-CSDN博客

KD树和球树通常用于精确最近邻查找，但也可以用于近似最近邻查找
- 限制搜索深度
  - 在构建KD树/球树的过程中，每个节点都会分割其包含的数据点。在查找最近邻时，通常会遍历这些节点以找到最近的点
  - 通过限制搜索深度，可以减少搜索时间，但这可能会导致找到的点不是真正的最近邻
- 早停准则
  - 在搜索过程中，一旦找到一个与查询点距离在某个阈值范围内的点，就停止搜索。
  - 这样可以加速查找过程，但可能会错过更近的点。

4 LSH 局部敏感哈希（locality-sensitive hashing）

LSH的基本思想是将相近的点映射到相同或相近的“桶”（bucket）中，以便能快速地检索这些点。

4.1 几个概念

哈希函数族:
- 选择一个局部敏感的哈希函数族，该函数族具有一个重要的性质：距离近的点被哈希到相同桶的概率高，而距离远的点被哈希到相同桶的概率低。
局部敏感
- 一个局部敏感的哈希函数族 H 对于任意两个点 p 和 q，以及任意两个距离阈值 R 和 r（R>r），具有以下性质
  - 正性质: 如果 distance(p,q)≤r，则 h(p)=h(q) 的概率较高。
    - 也就是说，如果两个点 p 和 q 距离很近，那么它们被哈希到同一个桶的概率应该很高。
  - 负性质: 如果distance(p,q)≥R，则 h(p)=h(q) 的概率较低。
    - 也就是说，如果两个点 p 和 q 距离很远，那么它们被哈希到同一个桶的概率应该很低。

多哈希表:
- 通常使用多个这样的哈希表，以增加查找精度。
候选集生成:
- 对于一个查询点，首先计算其哈希值，并在相应的桶中查找候选点。
后处理:
- 在候选集中进行距离计算，以找到最近邻

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/132678056

算法笔记近似最近邻查找（Approximate Nearest Neighbor Search，ANN）

近似最近邻搜索ANN(Approximate Nearest Neighbor)

最近邻搜索:Product Quantization for Nearest Neighbor Search

论文笔记-《Ordinal Constraint Binary Coding for Approximate Nearest Neighbor Search》

K NEAREST NEIGHBOR 算法

Product Quantization for Nearest Neighbor Search 论文笔记

Nearest neighbor graph | 近邻图

K近邻算法（k-nearest neighbor, kNN）

k近邻算法(k-nearest neighbor)和python 实现

K近邻分类算法 (K-Nearest Neighbor)

KNN(k-nearest neighbor的缩写)最近邻算法原理详解

数据关联算法之最近邻数据关联（Nearest Neighbor，NN）

机器学习实战之——K最近邻(k-Nearest Neighbor，KNN)分类算法Python实现

3.K最近邻算法—(k-Nearest Neighbor,简称KNN)

数字图像处理笔记二 - 图片缩放(最近邻插值(Nearest Neighbor interpolation))

k近邻法k-nearest neighbor

k近邻法(k-nearest neighbor)

K最近邻（k-Nearest Neighbor，KNN）

最近邻插值法（nearest_neighbor）

ML-52: 机器学习之K最近邻(k-Nearest Neighbor-KNN)分类算法+代码

【机器学习】k-近邻算法（k-nearest neighbor, k-NN）

我的人工智能之旅——近邻算法KNN（K-Nearest Neighbor）

机器学习分类算法之K近邻（K-Nearest Neighbor）

K近邻（k-Nearest Neighbor，KNN）算法，一种基于实例的学习方法

一、K近邻算法(K-NN，K-Nearest Neighbor Classifier )（有监督学习）

k Nearest Neighbor Algorithm

nearest_neighbor

k-Nearest Neighbor

Nearest-Neighbor Methods

K Nearest Neighbor

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)