BloomFilter简介

一.简介

BloomFilter底层是一个位图(位数组)的数据结构,通过k个hash函数将这个元素映射到位数组的k个点,将他们设置为1。检索时,我们查看这k个点是否都为1就能够判断元素是否在BloomFilter中(会有一定的误差率);如果k个点有一个点不为1,那么这个元素肯定不在BloomFilter里面。大致的数据结构:
在这里插入图片描述

二.使用场景

1.海量数据的去重
2.处理缓存穿透的场景,用于校验请求的key是否存在

三.使用demo

guava的BloomFilter包

package com.vip.learn.guava;

import com.google.common.hash.BloomFilter;

import java.nio.charset.Charset;

/**
 * Created by andrew.huang on 2019/6/3
 */
public class BloomFilterMain {

	public static void main(String[] args) {
		BloomFilter<String> bloomFilter = BloomFilter.create((from, into) -> {
				into.putString(from, Charset.defaultCharset());
		}, 32 * 1024 * 1024L, 0.01d);

		for(int i = 0;i < 10;i++){
			bloomFilter.put(Thread.currentThread().getName() + i);
		}

		System.out.println(bloomFilter.mightContain("1"));
		System.out.println(bloomFilter.mightContain(Thread.currentThread().getName() + "1"));
	}
}

输出结果:
在这里插入图片描述

四.guava bloomFilter原理

1.BloomFilter.create()
(1)先看看官方api文档对create四个方法的解释
在这里插入图片描述
主要的三个参数:
*funnel:你要怎么插数据到bloomFilter
*expectedInsertions:期待bloomfilter里面包含的元素个数
*fpp(false positive probability):错误容忍率

(2)探索下底层bloomfilter根据这几个参数是怎么处理的
在这里插入图片描述
可以看到BloomFilter这里使用了一个BloomFilterStrategies.MURMUR128_MITZ_64的策略类
在这里插入图片描述
里面的获取numBits和numHashFunctions都是依据数学理论计算出来,有兴趣可以了解https://blog.csdn.net/v_JULY_v/article/details/6685894

2.BloomFilter.put()方法
在这里插入图片描述
可以看到BloomFilter实际上是通过strategy类去实现,真正的put方法是
在这里插入图片描述
点进去可以看到,这个类主要是通过一个murmur3_128的hash函数去获取hash,根据hash函数的个数,去执行k次hash算法将值put进去

3.BloomFilter.mightContains()方法
在这里插入图片描述
可以看到通过k个hash算法,只要有一个BitArray.get()得到的返回值不为true(也就是在那个元素位置上不为1),那么就会返回false

4.guava BloomFilter的缺点
不能删除元素,必须在预估好容量之后再去设置BloomFilter

五.总结

BloomFilter的实现关键在于位数组容量的大小,容错率的数值和hash函数的选择,在可以容忍一定概率的错误率情况下,能够高效的处理海量数据的去重和判重。

from:andrew.huang

发布了87 篇原创文章 · 获赞 42 · 访问量 10万+

猜你喜欢

转载自blog.csdn.net/vipshop_fin_dev/article/details/90782671