在scrapy中过滤重复的数据

当为了确保爬到的数据中没有重复的数据的时候,可以实现一个去重的item pipeline

增加构造器方法,在其中初始化用于对与书名的去重的集合

在process_item方法中,先取出item中要判断的字段的名称,检查是否已经存在集合中了,如果已经存在了就是重复的数据抛出一个DropItem的异常,并将这个item抛弃,否则就将这个item的字段保存到集合中,并返回这个item

猜你喜欢

转载自www.cnblogs.com/tulintao/p/11700374.html