scrapy中通过set()方法进行数据过滤去重

我们经常在抓取数据是碰到 数据重复的问题,除了radis数据库去重功能外,还有一种简便的过滤方法,

来来 我们直接上代码:

pipelines.py中:

 
 
from scrapy.exceptions import DropItem  #导入异常处理模块

class
Baidu03Pipeline(object): def __init__(self):   #建立构造方法 self.title = set()   #定义集合 def process_item(self, item, spider): title = item['title']   #取出要进行判断数据是否重复的字段 if title in self.title:   #如果存在集合中则直接删除该项, raise DropItem('{}已存在'.format(title)) self.title.add(title) #如果数据不重复,则加入集合 ...... #插库数据 写在这里即可。。。
return item

猜你喜欢

转载自www.cnblogs.com/lvye001/p/9838714.html