Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

编程语言 2023-07-29 22:57:24 阅读次数: 0

目录：

1.实战讲解（XXTop250完整信息的爬取）：

1.实战讲解（XXTop250完整信息的爬取）：

先用单独一个项目来使用scrapy_redis，讲解一些重要点！

1.1 使用之前做的完整的XXTOP250项目，但是设置为只爬取一页（共25个电影）,便于观察

在这里插入图片描述

1.2 配置settings文件中使用scrapy_redis的必要配置，并使用公共redsi数据存储区域（通过使用特定管道实现）

# 第一步：加入以下代码：
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"

#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"

#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379

# 不清理redis队列，允许暂停/恢复抓取    （可选）    允许暂停，redis数据不丢失     可以实现断点续爬！！！
SCHEDULER_PERSIST = True


# 第二步：开启将数据存储进redis公共区域的管道！
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    
    
   # 'film.pipelines.FilmPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 100,
   # 'film.pipelines.DoubanSqlPipeline': 200,
}

1.3 注意：上述settings.py配置中有个可选项SCHEDULER_PERSIST，作用是决定清理还是不清理redis队列：

首先，设置其值为True，允许断点续爬，通过Redis Desktop Manager观察redis中存储数据的公共区域：（会发现，其中有一个是Douban:duperfilter，里面放的是每个请求URL的指纹；一个是Douban:items，里面放的是最终爬取的数据！）

在这里插入图片描述

但是，如果将可选项SCHEDULER_PERSIST的值设为False，不允许断点续爬，观察：（发现只有一个Douban:items，里面放的是最终爬取的数据！而没有每个请求URL的指纹数据！）

在这里插入图片描述

1.4 但是上面并不能在redis中看到每个请求URL的信息：

这是因为每次执行完毕之后，redis中就不存在了，所以，为了观察到scrapy_redis是将每个请求都交给redis的，我们在运行项目一段时间后，强制关闭项目，再来观察redis，会发现：（其中包括了Douban:requests！！！）

在这里插入图片描述

1.5 实例实现断点续爬：

首先，设置SCHEDULER_PERSIST为True，运行框架一会之后立马强制中断！
注意，settings.py中开启存储本地txt数据的管道！

会发现，在本地存储的数据没有25条，这是因为断点续爬，接着之前中断的点继续爬取的：

猜你喜欢

转载自blog.csdn.net/qq_44907926/article/details/131798682

Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

Python爬虫之Scrapy框架系列（7）——XXTop250电影简介信息的获取及存储到本地

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

Python爬虫之Scrapy框架系列（8）——XXTop250电影所有信息同时存储到MySql数据库

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

分布式爬虫scrapy_redis

Scrapy_Redis分布式爬虫

python爬虫之基于scrapy_redis的分布式爬虫

基于scrapy_redis部署的scrapy分布式爬虫

基于Scrapy_redis部署scrapy分布式爬虫

python爬虫入门 ✦ 乞丐版scrapy_redis分布式 + 增量式爬虫的实现

使用Scrapy_redis进行分布式爬虫

scrapy_redis分布式爬虫总结

十六、scrapy_redis（分布式爬虫）

scrapy_redis实现分布式爬虫

京东全网爬虫（scrapy_redis分布式，IP代理池反爬）

Python爬虫之Scrapy框架系列（14）——实战ZH小说爬取【多页爬取】

python爬虫项目(scrapy-redis分布式爬取房天下租房信息)

Scrapy基于scrapy_redis实现分布式爬虫部署

Scrapy基于scrapy_redis分布式爬虫的布隆去重

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

redis 分布式 1 爬虫scrapy框架之CrawlSpider

Python 分布式爬虫框架 Scrapy 4-1 待爬取网站及爬取策略说明

python爬虫之Scrapy分布式

Scrapy框架基于CrawlSpider爬数据，基于scrapy-redis的分布式爬虫，增量式爬虫

scrapy_redis分布式爬虫遇到的问题DEBUG: Filtered offsite request to

Python之Scrapy框架Redis实现分布式爬虫详解

scrapy-redis实现爬虫分布式爬取分析与实现

scrapy-redis 分布式爬虫爬取前程无忧的岗位数据

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)