爬虫断点爬取 - 代码天地

爬虫断点爬取

其他 2019-02-18 02:01:35 阅读次数: 0

有些情况下，例如爬取大的站点，我们希望能暂停爬取，之后再恢复运行。
Scrapy通过如下工具支持这个功能:

一个把调度请求保存在磁盘的调度器
一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
一个能持续保持爬虫状态(键/值对)的扩展

Job 路径:

要启用持久化支持，你只需要通过 JOBDIR 设置 job directory 选项。
这个路径将会存储所有的请求数据来保持一个单独任务的状态(例如：一次
spider爬取(a spider run))。必须要注意的是，这个目录不允许被不同的
spider 共享，甚至是同一个spider的不同jobs/runs也不行。也就是说，
这个目录就是存储一个单独 job的状态信息。

怎么使用??? 要启用一个爬虫的持久化，运行以下命令:

scrapy crawl 爬虫名称 -s JOBDIR=crawls/爬虫名称

然后，你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号,这时候会看到crawls文件夹下保存了一些文件)。恢复这个爬虫也是同样的命令:

scrapy crawl 爬虫名称 -s JOBDIR=crawls/爬虫名称

运行代码之后会默认生成以下文件：

spider.status : 爬虫运行的状态
requests.queue : 保存的请求的任务队列
requests.seen : 保存的是指纹

猜你喜欢

转载自blog.csdn.net/weixin_34375054/article/details/87244014

爬虫断点爬取

爬虫爬取表情

爬虫爬取图库

爬虫----爬取答案

scrapy-redis断点续爬，持久化爬虫和url去重，爬取京东图书

Python 爬虫爬取网页

[爬虫] 爬取POI服务

python爬虫－爬取图片

爬虫--爬取网站链接

python 爬虫爬取csdn

python爬虫爬取图片

Nodejs爬虫（定时爬取）

爬虫爬取股票信息

爬虫：Instagram信息爬取

爬虫爬取QQ号

爬虫--爬取图片（1）

爬虫，爬取猫眼电影

Python爬虫：爬取图片

python爬虫（爬取段子）

python爬虫（爬取视频）

爬取爬虫学习资料

爬虫爬取幽默笑话

关于网站爬虫的爬取

python爬虫 - 爬取图片

python爬虫爬取视频

Python爬虫——爬取小说

【爬虫】爬取网页图片

爬虫爬取的网址乱码

python爬虫登录爬取

爬虫爬取图片练习

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)