【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取 - 代码天地

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

其他 2018-09-05 22:12:03 阅读次数: 0

分布式爬虫: 一般用于爬取数量巨大 , 短时间快速爬取

将一个正常的scrapy项目改成 scrapy_redis 分布式爬取只需几步简单的添加配置即可 :

setting.py 文件中的参数配置:

添加:

# 使用的是scrapy_redis的去重类

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 调度器使用是scrapy_redis的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 爬取的过程中是否允许暂停

SCHEDULER_PERSIST = True

# 连接redis数据库 (REDIS_HOST 填写的是:(主机端)master端的地址 )

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

在管道配置中添加一个scrapy_redis 管道运行优先级自己视情况设定

ITEM_PIPELINES = {

'scrapy_redis.pipelines.RedisPipeline': 400,

}

# 最大并发请求量(只有在无delay时才能实现)

CONCURRENT_REQUESTS = 32

# 下载延迟(建议开启延迟,当多台设备同时分布式爬取的时候,很容易让所爬取网站的服务器蹦掉的)

# DOWNLOAD_DELAY = 1

spiders文件中的代码修改:

首先引入一个scrapy.redis.spider 模块:

from scrapy_redis.spiders import RedisCrawlSpider

#继承 RedisCrawlSpider 类

class AgentSpider(RedisCrawlSpider):

#分布式中没有了起始url 取而代之的是:redis_key

class AgentSpider(RedisCrawlSpider):

name = 'Agent'

# allowed_domains = ['fuwu.weimob.com.cn']

# start_urls = ['http://fuwu.weimob.com.cn/product_list.html/']

redis_key = 'agent:start_urls'

当项目中的代码全部修改完毕会后接下来就是启动项目和开启redis服务器:

启动redis服务器: redis-server.exe redis.windows.conf

开启redis服务器后不要关闭,重新开启一个命令控制台(cmd)去执行接下来的操作

打开redis的图形化工具,创建一个数据库,并连接服务器

进入redis服务器: redis-cli

启动项目的方式: scrapy runspider 文件名.py

启动项目后项目不会立马执行 , 他会等待 redis服务器那边传一个url 过来:

lpush agent:start_urls '需要爬取得url'

猜你喜欢

转载自blog.csdn.net/bmx_rikes/article/details/82379552

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

分布式爬虫scrapy_redis

Scrapy_Redis分布式爬虫

基于scrapy_redis部署的scrapy分布式爬虫

基于Scrapy_redis部署scrapy分布式爬虫

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

Scrapy_redis爬虫项目

将scrapy项目变成一个scrapy-redis项目

使用Scrapy_redis进行分布式爬虫

scrapy_redis分布式爬虫总结

十六、scrapy_redis（分布式爬虫）

scrapy_redis实现分布式爬虫

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

京东全网爬虫（scrapy_redis分布式，IP代理池反爬）

python爬虫入门 ✦ 乞丐版scrapy_redis分布式 + 增量式爬虫的实现

python爬虫之基于scrapy_redis的分布式爬虫

python爬虫项目(scrapy-redis分布式爬取房天下租房信息)

Scrapy基于scrapy_redis实现分布式爬虫部署

Scrapy基于scrapy_redis分布式爬虫的布隆去重

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

scrapy_redis分布式

Scrapy_Redis 分布式处理

scrapy_redis分布式爬虫遇到的问题DEBUG: Filtered offsite request to

【Python爬虫】轻松几步将 scrapy 框架获取得到的数据存储到 MySQL 数据库中

Scrapy_redis分布式基础_redis使用

python 使用scrapy 分布式爬取

python盗墓笔记爬虫爬虫scrapy_redis——MongoDB存储

分布式scrapy_redis源码总结，及其架构

scrapy_redis分布式组件策略图解

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)