布隆过滤器中的组合哈希函数 - 代码天地

布隆过滤器中的组合哈希函数

其他 2020-06-29 17:57:35 阅读次数: 0

背景

布隆过滤器使用组合哈希函数判定值是否在集合中，这样可以减少内存占用空间，提高空间使用率，具体是怎么做的呢？

哈希函数与冲突率

设想有一个阵列位（例如一个字节有8个阵列位），可用来存放哈希值，那么：

如果阵列位的容量大小是1，那么存放一个哈希值后，再存放新哈希值的冲突概率是100%（实际是已经满了，再也放不下下了）
如果阵列位的容量大小是10，那么存放一个哈希值后，再存放新哈希值的冲突概率是10%
如果阵列位的容量大小是100，那么存放一个哈希值后，再存放新哈希值的冲突概率是1%

而且，随着阵列位的空间不断被填满，新插入的值的冲突率也在上升，是个动态过程。从上面的过程可知，如果要存在N个哈希值，且要求冲突率在0.1%到1%之间，就需要100N到1000N个阵列位，这样的空间效率很低。

布隆过滤器中的组合哈希举例

对于布隆过滤器来说，思路和上面单哈希函数完全不同，允许适当的冲突，利用哈希位重复使用使得空间使用率提高。前面对于100个阵列位，在单哈希函数情况下，存放1个哈希值后再存放新哈希值的冲突概率是1%。

现在我们使用组合哈希函数，假设有三个哈希函数H1()、H2()、H3()，对于X来说，H1(X)=3，H2(X)=5，H3(X)=7，那么采用组合哈希函数后，对于100个阵列位来说，使用了阵列位的位置是（3，5，7）。
这时对于新值Y来说，如果Y通过H1、H2、H3的产生的哈希值是（7，3，5）那么对于100个阵列位来说，使用的还是那三个阵列位。也就是说X和Y使用了相同的阵列位，通过这样的操作可以减少阵列位的使用。
但是这样的方法也有问题，例如：对于要检查Z值，如果映射的哈希值刚好是（5，7，3）那么就相当于说Z值可能是存在的，也可能是不存在的，其实对于Y值来说也是如此…
当然，如果再来一个K，哈希值是（1，5，7），那么可以肯定的说，K值一定没有记录过在阵列位中。

如果增大阵列位长度，可以减少情况3的发生，如果增加组合HASH函数中的个数，也可以减少情况3的发生。如果情况3发生的太多了，相当于对于任何的值，过滤器都告诉你“不知道”。那就起不到过滤作用了。因此，布隆过滤器相当于是在阵列空间的使用和判断的准确率上做权衡，允许一定的“失误率”（SAY 不知道）。

猜你喜欢

转载自blog.csdn.net/qq_29047189/article/details/106974055

布隆过滤器中的组合哈希函数

哈希函数之布隆过滤器

哈希变形----布隆过滤器

哈希扩展——布隆过滤器

哈希&布隆过滤器

哈希的应用 —— 布隆过滤器

哈希表与布隆过滤器

【哈希】位图/布隆过滤器

布隆过滤器一致哈希哈希函数和哈希表

哈希函数+布隆过滤器+一致性哈希+哈希表

哈希表、哈希函数、布隆过滤器、一致性哈希

Golang中的布隆过滤器

爬虫中的布隆过滤器

Redis中的布隆过滤器

左 . 算法---哈希函数/哈希表/布隆过滤器专题

哈希扩展--位图和布隆过滤器

哈希扩展之布隆过滤器

哈希扩展——布隆过滤器相关操作实现

哈希表拓展——布隆过滤器

哈希扩展---布隆过滤器(bloom filter)

布隆过滤器实现(哈希+位图)

布隆过滤器+哈希切分

哈希的应用：布隆过滤器（C++实现）

【C++】哈希的应用——布隆过滤器

【C++】哈希的应用 -- 布隆过滤器

C++哈希应用——位图布隆过滤器

【C++】-- 哈希应用之布隆过滤器

【C++】哈希位图和布隆过滤器

哈希的应用--位图和布隆过滤器

【C++】哈希应用——布隆过滤器

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)