背景介绍:当我们需要爬取的数据量很大很大的时候,爬取的过程中难免会出现各种各样的问题导致程序崩溃断掉,这个时候我们就需要记录爬虫的状态,当爬虫挂掉的时候可以恢复原来的状态继续跑。
解决方案:
1. 将爬取过的url保存在文件中,爬取前进行对比
2. 利用数据库unique即可去重。
背景介绍:当我们需要爬取的数据量很大很大的时候,爬取的过程中难免会出现各种各样的问题导致程序崩溃断掉,这个时候我们就需要记录爬虫的状态,当爬虫挂掉的时候可以恢复原来的状态继续跑。
解决方案:
1. 将爬取过的url保存在文件中,爬取前进行对比
2. 利用数据库unique即可去重。