Bloom Filter备忘

写这个纯属备忘,外加一点感悟.

Bloom Filter是一种去重的算法.

就是将庞大的需要去重的数据,进行Bloom Filter算法,首先新建一个庞大的数组a[],那么每条数据会按照hash算法,得到自己的hash值,然后在这个hash值为x的数组位置 a[x]标志为1,每个数据进行一次Bloom Filter,如果a[x]位置为1,那么表示已经有值,表示是重复数据.

完毕!

错误率就在: 庞大的数据hash值后肯定会有hash值相同的情况.

备忘:

hash值,hashtable貌似是同步的?

猜你喜欢

转载自huuuxi.iteye.com/blog/1188862