scrapy框架结构与工作原理 - 代码天地

scrapy框架结构与工作原理

其他 2018-05-14 16:32:02 阅读次数: 2

组件：

ENGINE：引擎，框架的核心，其他组件在其控制下协同工作。

SCHEDULER：调度器，负责对SPIDER提交的下载请求进行调度

DOWNLOADER：下载器，负责下载页面，发送HTTP请求/接收HTTP响应

SPIDER：爬虫，负责提取页面数据，并产生对新的页面的下载请求

MIDDLEWARE：中间件，负责对Request对象和Response对象进行处理

ITEM PIPELINE：数据管道，负责对爬取到的数据进行处理

数据流：

REQUEST：Scrapy中HTTP请求对象

RESPONSE：Scrapy中HTTP响应对象

ITEM ：从页面中爬取的一项数据

理解Scrapy爬虫工作原理，以对象在框架中流动的过程解释：

*当SPIDER要爬取URL地址的页面时，需使用该URL构造一个Request对象，提交给ENGINE；

*Request对象随后进入SCHEDULER按照某种算法进行排队，之后某个时间SCHEDULER将其出队，送往DOWNLOADER；

*DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器，之后用服务器返回的HTTP响应构造一个Response对象，其中包含HTML文本

*Response对象最终会被传递到SPIDER的页面解析函数进行处理，从页面中提取的数据封装为ITEM提交给ENHINE，之后被送到ITEMPIPLINES进行处理，最终可能以某种形式存

储，另一方面页面解析函数还会从页面中提取URL，构造新的Request对象；

猜你喜欢

转载自www.cnblogs.com/master-song/p/9035561.html

scrapy框架结构与工作原理

scrapy学习笔记（二）框架结构工作原理

.NET框架结构体系及工作原理

46.Scrapy框架结构

Python scrapy框架教学（二）：Scrapy 框架结构

MVVM 框架结构

Opencv框架结构

springboot框架结构

Vue 框架结构

SSM框架结构

框架结构

集合框架结构

TMMi的框架结构

Scrapy 爬虫框架工作原理

爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)

Python爬虫：Scrapy框架基础框架结构及腾讯爬取

ssm框架结构的搭建

Metasploit笔记---框架结构

Spring核心框架结构

iOS VirtualView框架结构

shiro(一)框架结构

SpringMvc的框架结构介绍

Java 集合框架结构

单列集合框架结构

框架结构标签 frameset

何为软件框架结构

flask celery 框架结构

Android 系统框架结构

【python爬虫学习笔记】08 Scrapy爬虫框架结构及常用命令

hadoop框架结构学习简述

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)