Scrapy基于scrapy_redis分布式爬虫的布隆去重

1.从网上下载一个别人写好的布隆去重py文件

百度网盘:https://pan.baidu.com/s/1KbK4WAWxAQnslIomAoQSiw 密码:gld0

2.如果要想指定项目启动布隆去重的话

找到环境下的路径E:\ENVS\JobDataScrapyEnv\Lib\site-packages文件夹,找到scrapy_redis,单独复制到需要布隆去重的项目中


在把下载好的布隆去重文件BloomfilterOnRedis.py复制到scrapy_redis中,然后打开dupefilter.py文件


打开dupefilter文件后,首先引入一个类


然后在初始化函数中添加self.bf = BloomFilter(server=server,key=key)


然后修改requests_seen函数


猜你喜欢

转载自blog.csdn.net/baoshuowl/article/details/79770937