一、前言

布隆过滤器是大数据领域一个经常用到的算法，他经常用于在海量数据的场景中，快速判断某个元素在不在一个庞大的集合中。

二、原理

2.1、布隆过滤器用于解决什么问题

在我们通常的理解中，要想判断某个元素是否在一个集合中，经典的结构应该是平衡树和Hash表。但无论哪种方法，都逃不开一点，就是存储原值。

比如在爬虫场景中，我们需要记录下之前爬过的网站，我们要将之前的网址全部存储在容器里，然后再遇到新网站的时候，去判断他是否已经爬过了。在这个问题中，我们并不关心之前爬过的网址有哪些，我们只关心现在的网站有没有在之前出现过。也就是说，之前出现过什么不重要，现在的有没有出现过才重要。

我们利用平衡树等数据结构和算法可以实现高效的查找，但都离不开存储下所有的字符串。但在大数据场景，详细一下，一个网址大概上百个字符，大约0.1KB，如果是一亿个网址，就要10GB了，如果一百亿一千亿呢？显然这么大的规模就很麻烦了。布隆过滤器就是解决这个问题的，他不需要存储下原值，这是一个非常巧妙的做法。

2.2、布隆过滤器的原理

布隆过滤器就是一个boolean类型的数组，也就是说，每一位只有0或1，是一个bit，这个数组的长度是m。对于每个新增的项，我们使用K种不同的hash算法对他计算hash值。所以我们可以得到K个hash值，我们用hash值对m取模，假设是x。刚开始的时候，数组内全部都是0，我们把所有x对应的位置标记为1。

举个例子，假设我们一开始m是10，K是3，我们第一个插入的值是”线性代数“这个字符串，我们对他hash之后得到的hash值对10取模分别为1, 3, 5，那么我们将对应的位置标记为1。

在这里插入图片描述
然后我们下一个字符串是”高等数学“，hash之后得到的hash值对10取模是1, 8, 9，我们还是将对应位置赋值成1，会发现1这个位置的值已经是1了，我们忽略就好了。

在这里插入图片描述
如果这个时候我们想要判断”概率统计“有没有出现过，怎么办？很简单，我们对”概率统计“再计算hash值对10取模，假设得到1，4，5，我们去遍历一下对应的位置，发现4这个位置是0，说明之前没有添加过”概率统计“，显然，”概率统计“没有出现过。

但是如果”概率统计“hash后取模的结果是1，3，8呢？我们如果判断，他出现过，那就错了，因为虽然1，3，8这个hash组合之后没有出现过，但对应的位置都在其他元素中国出现过了，这样就出现了误差。所以我们可以知道，布隆过滤器对于不存在的判断是准确的，但对于存在的判断有可能是有错误的。

三、关于删除

布隆过滤器是不支持删除元素的。

因为布隆过滤器的每个bit并不是独占的，很可能有多个元素共享了某一个bit，如果我们直接删除这个bit的话，会影响其他元素。

四、总结

布隆过滤器的优点：

速度足够快
内存消耗小
代码实现简单

布隆过滤器的缺点：

不支持删除元素
会有误判的可能

布隆过滤器学习笔记

一、前言

二、原理

2.1、布隆过滤器用于解决什么问题

2.2、布隆过滤器的原理

三、关于删除

四、总结

猜你喜欢

布隆过滤器 学习笔记

一、前言

二、原理

2.1、布隆过滤器用于解决什么问题

2.2、布隆过滤器的原理

三、关于删除

四、总结

猜你喜欢

布隆过滤器学习笔记