运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用 - 代码天地

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

编程语言 2018-09-04 15:22:59 阅读次数: 0

数据的流程
1.scrapy 初始的内容是添加在spiders内部的他的初始值是通过两种方式获取的 GET ：scrapy的默认方式 start_urls=”xxx” POST :注释掉start_urls 添加start_requests() 函数
2.spiders 把初始值传递给scheduler, scheduler 接受请求request 并存储
3.scheduler 发送请求给downloader downloader 从网络中下载页面其中concurrents_requests 是最大并发量也指最大同事下载的页面数量
4.downloader获取到内容以response 返回值的形式传递给spider
5.downloader 在下载之情会经过download middleware 中间件这个中间可可以添加headers 代理等
6.spiders 在获取到response 之后会定位想要的信息并生成items 并yield item把其传递给pipline
7.在spiders 定位的信息是url 需要进一步解析的时间就会再一次执行2-6
8.item 会被传递到item pipline 中 item pipline 会执行后续的操作可能是存储展示等等
<一>
spider 的作用输入值输出值
作用：《1》start_urls start_requests 生成的地方
《2》downloader 传递给spiders 的response 的解析
《3》item 的生成
输入：
start_urls
start_requests
downloader 的response
输出：
request 给scheduler
item 给itempipline
<二>
scheduler
作用：存储requests
输入：request 是spiders pipline downloader
输出： url（requests）输出的模块只有downloader
<三>
downloader
<1> 接收request，并根据request获取页面
<2>将response返回给spiders
输入：
request来源是scheduler
输出：
response 的接收方式spiders

猜你喜欢

转载自blog.csdn.net/chengjintao1121/article/details/82217882

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

分布式爬虫scrapy_redis

Scrapy_Redis分布式爬虫

Python爬虫之Scrapy框架系列（23）——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

【Python爬虫】轻松几步将一个 scrapy项目变成 scrapy_redis 分布式爬取

基于Scrapy_redis部署scrapy分布式爬虫

基于scrapy_redis部署的scrapy分布式爬虫

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

使用Scrapy_redis进行分布式爬虫

scrapy_redis分布式爬虫总结

十六、scrapy_redis（分布式爬虫）

scrapy_redis实现分布式爬虫

京东全网爬虫（scrapy_redis分布式，IP代理池反爬）

scrapy_redis分布式组件策略图解

scrapy_redis分布式

Scrapy_Redis 分布式处理

Scrapy框架基于CrawlSpider爬数据，基于scrapy-redis的分布式爬虫，增量式爬虫

scrapy-redis 分布式爬虫爬取前程无忧的岗位数据

Scrapy基于scrapy_redis分布式爬虫的布隆去重

Scrapy基于scrapy_redis实现分布式爬虫部署

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

python爬虫入门 ✦ 乞丐版scrapy_redis分布式 + 增量式爬虫的实现

python爬虫之基于scrapy_redis的分布式爬虫

Scrapy框架分布式爬虫scrapy-redis组件使用

Scrapy_redis分布式基础_redis使用

scrapy_redis分布式爬虫遇到的问题DEBUG: Filtered offsite request to

分布式scrapy_redis源码总结，及其架构

scrapy-redis实现爬虫分布式爬取分析与实现

python爬虫项目(scrapy-redis分布式爬取房天下租房信息)

使用Scrapy-redis实现分布式爬取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)