关于断点续爬

背景介绍:当我们需要爬取的数据量很大很大的时候,爬取的过程中难免会出现各种各样的问题导致程序崩溃断掉,这个时候我们就需要记录爬虫的状态,当爬虫挂掉的时候可以恢复原来的状态继续跑。

解决方案:

1. 将爬取过的url保存在文件中,爬取前进行对比

2. 利用数据库unique即可去重。

猜你喜欢

转载自www.cnblogs.com/zenan/p/10329389.html