scrapy_redis分布式 - 代码天地

scrapy_redis分布式

其他 2019-10-26 19:10:01 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/lipachong/article/details/102485984

想做一下高大上的scrapy_redis爬虫程序，又觉得我这种水货做不来，后来各种查教程，试验，还算做出来一个像分布式的东西，不过还是记录一下，反正开几个终端模拟分布式，数据库里的数据确实没重复的，也能凑乎着用吧

首先搭建scrapy，额。。反正就是先别管啥分布式，做一个scrapy爬虫出来再说。
当你的scrapy爬虫能运行成功，数据库里能有数据的时候，改成分布式，
settings.py文件最后加这么一段话：

DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER="scrapy_redis.scheduler.Scheduler"
#默认为False，会在爬取完成后清空爬取队列和去重指纹集合。如果不想清空它们，就设置为True：
SCHEDULER_PERSIST=True
REDIS_URL="redis://127.0.0.1:6379"

#  同时为保证能够把数据同时存储到sql中我们还要设置相关pipline
ITEM_PIPELINES={
	#这个是你之前的scrapy爬虫管道的设置，从上面移下来就好了，注意权重优先级要低于redis管道
    'test_scarpy_redis.pipelines.TestScarpyRedisPipeline':500,
    #这个是redis数据库的管道设置，pipline.py文件里不用写redis数据库操作，人家封装好了，我们把管道接上就行了。当然，你想存sql或者mongo的话，pipline.py里面要写sql或者mongo的数据库操作
    'scrapy_redis.pipelines.RedisPipeline':400
}

这段设置代码加完之后再运行你的爬虫，你的sql（mongo）和redis库里就有数据了，把它部署到不同的电脑上运行，就是分布式了。同一台电脑开多个终端运行也算模拟分布式了，可以用来试验。
redis库中会出现三个字段：
在这里插入图片描述
蓝框里面的就是数据了，其他两个好像是dupefilter是用来存储抓取过的url的指纹,是防止重复抓取的,requests里是存的待爬url.

猜你喜欢

转载自blog.csdn.net/lipachong/article/details/102485984

分布式爬虫scrapy_redis

Scrapy_Redis分布式爬虫

scrapy_redis分布式

Scrapy_Redis 分布式处理

基于Scrapy_redis部署scrapy分布式爬虫

基于scrapy_redis部署的scrapy分布式爬虫

Scrapy_redis分布式基础_redis使用

使用Scrapy_redis进行分布式爬虫

分布式scrapy_redis源码总结，及其架构

scrapy_redis分布式爬虫总结

十六、scrapy_redis（分布式爬虫）

scrapy_redis实现分布式爬虫

scrapy_redis分布式组件策略图解

Scrapy基于scrapy_redis分布式爬虫的布隆去重

Scrapy基于scrapy_redis实现分布式爬虫部署

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

python爬虫入门 ✦ 乞丐版scrapy_redis分布式 + 增量式爬虫的实现

scrapy_redis分布式爬虫遇到的问题DEBUG: Filtered offsite request to

python爬虫之基于scrapy_redis的分布式爬虫

京东全网爬虫（scrapy_redis分布式，IP代理池反爬）

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

scrapy-redis分布式组件

scrapy-redis分布式爬虫

Scrapy-Redis分布式策略

scrapy-redis分布式

分布式爬虫 redis + mongodb +scrapy

分布式爬虫(scrapy-redis)

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)