使用set去重的问题: 只要用到set就需要完整的数据集, 大量数据会导致OOM
大数据去重的唯一解决方案是布隆过滤器
[详解布隆过滤器的原理]( https://zhuanlan.zhihu.com/p/43263751)
计算bloom filter误判率