使用scrapy实现去重,使用Redis实现增量爬取

面试场景:

  要求对正在爬取的内容与mysql数据库中的数据进行比较去重

解决方式:

  通过Redis来作为中间件,通过url来确保爬过的数据不会再爬,做到增量爬取。

  Redis数据库其实就是一个中间件,因为爬虫爬取的数据并不能直接拿去和MySQL中的数据进行比较。那我们就需要将MySQL数据库现有的数据备份出来保存在一个有键值对的Redis数据库中,再将爬取到的数据和Redis数据库中的数据进行比较,若Redis数据库中已经存在数据则丢弃,若Redis数据库中不存在该条数据则保存进入MySQL数据库中。没执行一次Redis数据库就会被重置一次。

猜你喜欢

转载自www.cnblogs.com/LBDJSBP/p/13169983.html