【ClickHouse系列】ClickHouse 支持 ANN 向量索引 - 代码天地

【ClickHouse系列】ClickHouse 支持 ANN 向量索引

业界资讯 2023-09-06 23:27:07 阅读次数: 0

实现背景

最近邻域搜索（ANN）是指在 n 维空间中找到与给定点距离最小的点的问题。如果数据要逐条对比，性能和内存都有很大的消耗，所以添加了 annoy_index 索引，利用 ann 索引来加速计算。相关PR：https://github.com/ClickHouse/ClickHouse/pull/40818

使用限制

ClickHouse 的 ANN 索引还有很多局限性
- 目前是个实验性功能需要开始 setting 才能使用（SET allow_experimental_annoy_index = 1）
- 由于算法存在内存安全问题，目前已在 ARM 上禁用
- 如果 where 和 order by 同时使用时，没有效率提升，所以必须和 limit 子句一起使用
- 只有当 limit 的值小于 max_limit_for_ann_queries（默认：100W）时，才会使用 ANN 索引加速，否则会很消耗内存。

特殊函数支持及 ANN 索引使用方法

ClickHouse 为此增加几个特殊的函数来支持查询，如 L2Normalize、L2Norm 等。示例如下：

SELECT L2Distance((1, 2), (2, 3));

┌─L2Distance((1, 2), (2, 3))─┐
│         1.4142135623730951 │
└────────────────────────────┘

SELECT L2Norm((1, 2));

┌───L2Norm((1, 2))─┐
│ 2.23606797749979 │
└──────────────────┘

ANN 索引使用示例如下，更多示例详见：示例

CREATE TABLE 02354_annoy
(
    id Int32,
    embedding Array(Float32),
    INDEX annoy_index embedding TYPE annoy(100) GRANULARITY 1
)
ENGINE = MergeTree
ORDER BY id
SETTINGS index_granularity=5;

INSERT INTO 02354_annoy VALUES (1, [0.0, 0.0, 10.0]), (2, [0.0, 0.0, 10.5]), (3, [0.0, 0.0, 9.5]), (4, [0.0, 0.0, 9.7]), (5, [0.0, 0.0, 10.2]), (6, [10.0, 0.0, 0.0]), (7, [9.5, 0.0, 0.0]), (8, [9.7, 0.0, 0.0]), (9, [10.2, 0.0, 0.0]), (10, [10.5, 0.0, 0.0]), (11, [0.0, 10.0, 0.0]), (12, [0.0, 9.5, 0.0]), (13, [0.0, 9.7, 0.0]), (14, [0.0, 10.2, 0.0]), (15, [0.0, 10.5, 0.0]);

SELECT *
FROM 02354_annoy
WHERE L2Distance(embedding, [0.0, 0.0, 10.0]) < 1.0
LIMIT 5;

# 1	[0,0,10]
# 2	[0,0,10.5]
# 3	[0,0,9.5]
# 4	[0,0,9.7]
# 5	[0,0,10.2]

猜你喜欢

转载自blog.csdn.net/weixin_39992480/article/details/131532406

【ClickHouse系列】ClickHouse 支持 ANN 向量索引

clickhouse索引

【ClickHouse系列】ClickHouse入门

ClickHouse主键索引最佳实践

支持向量机系列

clickhouse支持原生Binlog同步mysql

ClickHouse

【ClickHouse】

【clickhouse】clickhouse 漫谈SIMD、SSE指令集与ClickHouse向量化执行

【ClickHouse系列】ClickHouse 轻量级删除原理

clickhouse的索引结构和查询优化

向ClickHouse中引入倒排索引

ClickHouse 系列报错

UniqueMergeTree：支持实时更新删除的 ClickHouse 表引擎

opencv机器学习 Haar特征 LBP特征 adaboost集成学习级联分类器支持向量机SVM 主成分分析PCA 人工神经网络(ANN) 笑脸检测 SVM分类笑脸检测

机器学习系列-支持向量机

[SVM系列之三]间隔与支持向量

机器学习系列之支持向量机

支持向量机详解之——系列2

支持向量机详解之——系列1

支持向量机系列之了解SVM

机器学习 - 支持向量机（SVM）目录索引

【ClickHouse系列】ClickHouse-docker安装和使用

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

ClickHouse系列7-Doris Hive Spark ClickHouse简单的比较

【ClickHouse系列】如何用 ClickHouse 生成随机测试数据

ClickHouse学习-建表和索引的优化点（一）

【clickhouse】clickhouse 的函数介绍

【clickhouse】clickhouse 配置

【Clickhouse】Clickhouse Live View

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)