位图与布隆过滤器简明介绍 - 代码天地

位图与布隆过滤器简明介绍

其他 2019-10-18 18:17:27 阅读次数: 0

一个由1亿个数组成的集合M，数的范围从1~10亿

新来一个数n，如何快速且省内存地判断是否存在M中？

方法一：

将集合M的数用散列表保存，然后对数n判断是否在散列表中即可
消耗内存：假设一个数用4字节保存，1亿个数至少要381M内存，不过由于实际上由于有装载因子，散列冲突解决等，实际内存远远不止381M

方法二：

申请一个大小为10亿，数据类型为布尔的“特殊”散列表，将这一亿个数作为散列表下标，将值设成True

不过很多语言的布尔大小是1字节，并不能节省很大空间，实际上只需要使用1个二进制位，来表示true和false两个值就行了。

这就要用到位运算了，借助编程语言提供的数据类型，比如int，char等，通过位运算，用其中的某个位表示某个数字。
这就是位图

消耗大小：约120M

布隆过滤器

不过位图有个问题，想想看，如果数的范围是1到100亿呢，那位图消耗的大小就是1.2G了！！，相对于散列表，不降反升。
这个时候，总算轮到今天的主角：布隆过滤器登场了，它其实是对位图一种改进。

针对数据范围是1到100亿的集合，还是申请10亿的二进制大小的位图（消耗内存120M）
使用多个哈希函数，得到k个不同的哈希值，记为 x1,x2,x3...xk。将k个数字作为位图中的下标，将对应的值设为1
适当选择k个哈希函数，k个哈希值都相同的概率就非常低了，但又会带来新的问题，那就是误判

布隆过滤器的误判有个特点：

没有就是没有，有就有极低的可能会没有 :)

扫描二维码关注公众号，回复： 7500156 查看本文章

因此布隆过滤器适合过误判有一定容忍度的场景
爬虫去重
海量图库的判重

猜你喜欢

转载自www.cnblogs.com/yeni/p/11699709.html

位图与布隆过滤器简明介绍

位图与布隆过滤器

位图和布隆过滤器

【哈希】位图/布隆过滤器

简单介绍布隆过滤器

布隆过滤器的介绍

布隆过滤器介绍

哈希扩展--位图和布隆过滤器

大数据处理（位图，布隆过滤器）

处理大数据———位图以及布隆过滤器

布隆过滤器实现(哈希+位图)

C+学习——浅谈位图与布隆过滤器

位图&布隆过滤器&海量数据处理

数据结构之位图布隆过滤器

【手撕STL】bitset（位图）、布隆过滤器

C++之位图&布隆过滤器

【C++】位图应用 | 布隆过滤器

C++哈希应用——位图布隆过滤器

C++ | 位图与布隆过滤器

【C++】哈希位图和布隆过滤器

哈希的应用--位图和布隆过滤器

【C++】位图的简单实现与布隆过滤器

C++：位图，布隆过滤器

【C++】哈希（位图、布隆过滤器）

【高阶数据结构】位图&布隆过滤器

位图、布隆过滤器、海量数据处理

布隆过滤器

布隆过滤器　

布隆过滤器和Hyperloglog基数统计的介绍

Hbase 布隆过滤器BloomFilter介绍

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)