分布式爬虫的实现 - 代码天地

分布式爬虫的实现

编程语言 2019-01-25 09:01:07 阅读次数: 0

分布式爬虫的实现

创建爬虫类

scrapy genspider itcast itcast.cn
修改继承类为scrapy_reids中的RedisSpider
删除原有的start_urls

添加存在start_urls在redis数据库中的键

from scrapy_redis.spiders import RedisSpider

class ItcastSpider(RedisSpider):
    name = 'itcast'
    allowed_domains = ['itcast.cn']
    # 删除原有的start_urls
    # start_urls = ['http://itcast.cn/']
    
    # 添加存在start_urls在redis数据库中的键
    redis_key = "itcast:start_urls"

    def parse(self, response):
        pass

前提：必须实现增量式爬虫的配置

USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

# 指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 制定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 调度器的内容是否持久化
SCHEDULER_PERSIST = True

# 多台机器共享的redis的url
REDIS_URL = "redis://192.168.31.69:6379"

启动

lpush itcast:start_urls http://www.itcast.cn

scrapy crawl itcast

RedisCrawlSpier的使用

scrapy genspider -t crawl itcast itcast.cn

修改继承类为RedisCrawlSpier

扫描二维码关注公众号，回复： 5059964 查看本文章

删除start_urls

添加redis_key

猜你喜欢

转载自blog.csdn.net/weixin_44090435/article/details/86635893

分布式爬虫的实现

实现简单分布式爬虫

使用scrapy实现分布式爬虫

分布式爬虫

爬虫分布式

爬虫--Scrapy-基于RedisSpider实现的分布式爬虫

分布式爬虫与增量式爬虫

简单分布式爬虫

Python 分布式爬虫

分布式爬虫(2)

分布式爬虫(3)

分布式爬虫(4)

爬虫 scrapy 分布式

分布式爬虫系统

分布式爬虫实战

爬虫技术：分布式

分布式爬虫原理

scrapy 分布式爬虫

分布式爬虫入门

Scrapy分布式爬虫

go分布式爬虫

scrapy-redis分布式爬虫实现思路

使用 scrapy-redis实现分布式爬虫

Scrapy-redis实现分布式爬虫的要点

Python之分布式爬虫的实现步骤

基于网易云音乐的分布式爬虫实现

利用scrapy-redis实现分布式爬虫

Scrapy框架之基于RedisSpider实现的分布式爬虫

scrapy-redis实现分布式爬虫

Scrapy+redis实现分布式爬虫

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)