大数据去重问题:Bitmap和布隆过滤器(Bloom Filter)

一、Bitmap算法

bitmap就是用一个bit位来标记某个元素对应的value,而key即是这个元素。由于采用bit为单位来存储数据,因此在可以大大的节省存储空间。
这里写图片描述

二、布隆过滤器

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到.
这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012017783/article/details/81807997