爬虫scrapy-redis - 代码天地

爬虫scrapy-redis

其他 2018-08-04 15:56:18 阅读次数: 0

将普通爬虫更改为scrapy-redis:

spider_name.py

from scrapy_redis.spiders import RedisSpider #导入RedisSpider
原本的class NameSpider(scrapy.Spider):继承的类更换为RedisSpider
redis_key = ‘sinaspider:start_urls’ #运行的时候使用redis_key,唯一

items.py

加入 crawled = scrapy.Field()
spider = scrapy.Field()两个字段

pipelines.py

class ExamplePipeline(object):
    def process_item(self, item, spider):
        item["crawled"] = datetime.utcnow()
        item["spider"] = spider.name+"name" #自定义name
        return item

settings.py

配置redis:
- REDIS_HOST=”192.168.21.51”
- REDIS_PORT=6379 #不加引号
- 如果爬虫端（slave端），刚好是在redis安装的主键上，默认可以不配置redis相关信息
SCHEDULER_PERSIST = True #分布式爬虫可以停止/暂停,下次可以继续爬虫
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter” #使用scrapy-redis自己的组件去重,不使用scrapy默认的去重
SCHEDULER = “scrapy_redis.scheduler.Scheduler” #使用scrapy-redis自己调度器,不使用scrapy默认的调度器
SCHEDULER_QUEUE_CLASS = “scrapy_redis.queue.SpiderPriorityQueue” #按照sorted 排序顺序出队列，建议使用某一个，这样才能在redis数据库中看到,其实可以不写不影响结果
ITEM_PIPELINES 加入pipelines中的ExamplePipeline : 'scrapy_redis.pipelines.RedisPipeline': 299,和'scrapy_redis.pipelines.RedisPipeline': 400,#开启redis处理器

运行
- 在spiders文件夹下新建启动文件 main.py写入:from scrapy import cmdline
cmdline.execute("scrapy runspider myspider_redis.py".split())
- 运行: 1. 启动 main.py 2.启动redis:redis-cli 3.lpush + redis_key + url

猜你喜欢

转载自blog.csdn.net/qq_39926957/article/details/80385740

爬虫scrapy-redis

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

scrapy-redis分布式爬虫

爬虫之 scrapy-redis组件

scrapy-redis增量式爬虫

分布式爬虫(scrapy-redis)

scrapy-Redis 分布式爬虫

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

Scrapy爬虫改为Scrapy-Redis增量式爬虫

scrapy爬虫-scrapy-redis分布式

scrapy-redis 分布式爬虫原理及与scrapy不同

爬虫 - scrapy-redis分布式爬虫

scrapy-redis组件

scrapy-redis

scrapy-redis架构

scrapy-redis 框架

Scrapy-redis 组件

scrapy-redis 设置

使用scrapy-redis构建简单的分布式爬虫

scrapy-redis分布式爬虫实现思路

使用 scrapy-redis实现分布式爬虫

scrapy-redis分布式爬虫的配置

Scrapy-redis实现分布式爬虫的要点

如何进行一个scrapy-redis爬虫

Python学习笔记——爬虫之Scrapy-Redis实战

Python爬虫学习之Scrapy-Redis实战京东图书

利用scrapy-redis实现分布式爬虫

scrapy-redis实现分布式爬虫

python 爬虫分布式 scrapy-redis

基于scrapy-redis的分布式爬虫

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)