python 使用scrapy 分布式爬取 - 代码天地

python 使用scrapy 分布式爬取

企业开发 2023-10-02 18:24:48 阅读次数: 0

创建工程忽略

在setting.py中添加

#增加了一个去重容器类的配置,作用使用Redis的set集合来存储指纹数据，从而实现去重持久化
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"
#使用scrapy_redis组件自己调度器
SCHEDULER="scrapy_redis.scheduler.Scheduler"
#配置调度器是否持久化,也就是当爬虫结束了 要不要清空Redis中请求队列和去重指纹的set
#True表示今天爬过了 明天就不爬重复
SCHEDULER_PERSIST=True

ITEM_PIPELINES={
    'scrapy_redis.pipelines.RedisPipeline':400
}
#存储到Redis中
REDIS_HOST="127.0.0.1"
REDIS_PORT=6379

在爬虫文件写入

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider
from fbsPro.items import FbsproItem

class FbsSpider(RedisCrawlSpider):
    name = "fbs"
    # allowed_domains = ["www.xxx.com"]
    # start_urls = ["https://www.xxx.com"]
    redis_key = 'sanQuqu' #可以被共享的调度器名字
    rules = (Rule(LinkExtractor(allow=r"id=1&page=\d+"), callback="parse_item", follow=True),)

    def parse_item(self, response):
        li_list=response.xpath('/html/body/div[2]/div[3]/ul[2]/li')
        for li in li_list:
            title=li.xpath('./span[3]/a/text()').extract_first()
            item=FbsproItem()
            item['title']=title
            yield item
  #需要重写方法 
    def make_requests_from_url(self, url):
        yield scrapy.Request(url=url)

运行爬虫文件

运行后等待手动在Shell窗口输入Url

然后打开Redis安装目录

右键打开Shell窗口

输入指令 redis-server

打开客户端 redis-cli

这个是上面的代码 “” redis_key = 'sanQuqu' #可以被共享的调度器名字“”

输入 lpush sanQuqu 这里输入要爬取的url

按下回车在pycharm中就可以看到爬取的数据

猜你喜欢

转载自blog.csdn.net/qq1278169704/article/details/131118926

python 使用scrapy 分布式爬取

Python 分布式爬虫框架 Scrapy 4-1 待爬取网站及爬取策略说明

python爬虫项目(scrapy-redis分布式爬取房天下租房信息)

使用Scrapy-redis实现分布式爬取

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

python爬虫-初步使用Scrapy分布式爬虫（爬取mcbbs整合包保存名称及主要mod），大爱MC

Python 分布式爬虫框架 Scrapy 4-6 编写spider爬取所有文章

聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎(四) - scrapy爬取技术文章网站

Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

python使用scrapy爬取图片

Python爬虫项目实战-Scrapy+Charles+MongoDB+Redis实现分布式京东全网信息爬取2020最新版

爬取知乎-------------------------------------------使用分布式scrapy-redis

Python 分布式爬虫框架 Scrapy 4-3 使用pycharm调试scrapy的技巧

python爬虫之Scrapy分布式

Scrapy-redis改造scrapy实现分布式多进程爬取

Scrapy分布式爬虫打造搜索引擎——（二） scrapy 爬取伯乐在线

[Python爬虫]使用Scrapy框架爬取图虫图片

[Python爬虫]使用Scrapy框架爬取淘宝

Python使用scrapy框架爬取腾讯招聘

Python爬虫——使用Scrapy实现图片的爬取（四）

python 使用 scrapy 爬取数据遇到问题整理

Python爬虫实战使用scrapy与selenium来爬取数据

python使用scrapy爬取项目demo（已解决）

Python爬虫：使用Scrapy框架进行高效爬取

Scrapy-redis实现分布式爬取的过程与原理

scrapy分布式爬虫部署-- 爬取知乎用户为例

scrapy-redis实现爬虫分布式爬取分析与实现

Centos7下的scrapy-redis分布式爬取知乎用户

分布式scrapy+redis 爬取房天下租房信息

scrapy-redis分布式爬取tencent社招信息

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)