利用scrapy-redis实现分布式爬虫 - 代码天地

利用scrapy-redis实现分布式爬虫

其他 2018-12-06 18:21:03 阅读次数: 0

环境要求

Python 2.7, 3.4 or 3.5
Redis >= 2.8
Scrapy >= 1.1
redis-py >= 2.10

1. 先安装scrapy-redis

sudo pip3 install scrapy-redis

2. 安装redis

3. 安装 redis的可视化工具 redis desktop manager

连接https://pan.baidu.com/s/1miRPuOC?fid=489763908155827

4. 改写spider

#文件为wb.py
import scrapy
from datetime import datetime
from ..items import QuestionItem, AnswerItem
from scrapy_redis.spiders import RedisSpider
import re

class WbSpider(RedisSpider):
    name = 'wb'
    allowed_domains = ['58che.com']
    # start_urls = ['https://bbs.58che.com/cate-1.html']
    redis_key = "wbSpider:start_urls"

首先是改成继承RedisSpider，然后增加一个redis_key是爬虫名字,同时注释掉start_urls，同时使用Redis命令向该列表添加起始爬取点，去掉了start_requests，因为所有的爬虫都是从redis来获取url，所以没有开始请求的地址了

redis-cli
lpush wbSpider:start_urls:https://bbs.58che.com/cate-1.html

5.修改setting设置

# Enables scheduling storing requests queue in redis.
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

# Enables scheduling storing requests queue in redis.
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

## 爬虫数据采用redis存储，注释掉其他存储设置
# Enables scheduling storing requests queue in redis.
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

6.部署到不同的电脑上，启动爬虫

scrapy crawl wb

猜你喜欢

转载自blog.csdn.net/supramolecular/article/details/84109632

利用scrapy-redis实现分布式爬虫

scrapy-redis分布式爬虫

分布式爬虫(scrapy-redis)

scrapy-Redis 分布式爬虫

scrapy-redis分布式爬虫实现思路

使用 scrapy-redis实现分布式爬虫

Scrapy-redis实现分布式爬虫的要点

scrapy-redis实现分布式爬虫

scrapy爬虫-scrapy-redis分布式

scrapy-redis 分布式爬虫原理及与scrapy不同

爬虫 - scrapy-redis分布式爬虫

【Scrapy框架基于scrapy-redis实现分布式爬虫】

scrapy框架中间件的使用以及scrapy-redis实现分布式爬虫

使用scrapy-redis构建简单的分布式爬虫

scrapy-redis分布式爬虫的配置

基于scrapy-redis的分布式爬虫

python 爬虫分布式 scrapy-redis

scrapy-redis组件写分布式爬虫实战

scrapy-redis分布式爬虫框架详解

使用scrapy-redis搭建分布式爬虫环境

使用scrapy-redis 搭建分布式爬虫环境

10 给予scrapy-redis的分布式爬虫

scrapy-redis分布式爬虫实战

21. 分布式爬虫Scrapy-Redis

基于scrapy-redis的分布式爬虫简单使用

十五：爬虫-Scrapy-redis分布式

scrapy-redis实现爬虫分布式爬取分析与实现

Scrapy-redis分布式+Scrapy-redis实战

实现elasticsearch 和scrapy-redis分布式

使用Scrapy-redis实现分布式爬取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)