Scrapy核心组件解析 - 代码天地

Scrapy核心组件解析

其他 2019-04-16 08:52:10 阅读次数: 0

如图,分别是引擎(Engine),管道(Pipeline),调度器(Scheduler),下载器(Downloader)，爬虫文件(Spider)以及一些中间件(Middleware)。

引擎是整个框架的核心，整个爬取的流程就是引擎来管理。调度器用来接收引擎发过来的requests，并在引擎再次请求的时候返回。调度器用来决定抓取的URL。下载器用来下载内容然后返回给爬虫，它是建立在twisted这个高效的异步模型上的。爬虫主要是一些逻辑代码，用于提取出我们需要的信息，也就是所谓的实体Item。管道负责处理实体内容，一般的功能有持久化存储，验证有效性，清楚无关信息等。

一次简单的大致scrapy爬起流程如下：

首先引擎将爬虫文件的url获取，提交给调度器。下载数据后，调度器通过引擎来将response交给下载器。下载好的数据会通过引擎交给爬虫文件,然后解析数据。最后爬虫文件将解析好的数据交给管道来进行处理。

猜你喜欢

转载自www.cnblogs.com/haoqirui/p/10714649.html

Scrapy核心组件解析

scrapy核心组件

scrapy相关-核心组件

爬虫之scrapy核心组件

爬虫Scrapy的核心组件Pipeline

爬虫(三)之scrapy核心组件

scrapy框架五大核心组件

Scrapy 源码剖析（三）Scrapy 有哪些核心组件？

爬虫框架scrapy（3）五大核心组件

scrapy核心组件工作流程和post请求

Netty 核心组件 EventLoop 源码解析

Spring Security 源码解析-核心组件(一)

Spring 核心组件原理解析

Spring MVC核心组件及工作流程解析

Jetpack核心组件，ViewModel的使用及原理解析

Spark内核解析之(8)Spark 核心组件深度剖析

【Netty系列_2】Netty线程模型与核心组件解析（上）

Kubernetes 架构核心组件工作原理解析

python爬虫之Scrapy框架的post请求和核心组件的工作流程

Scrapy 框架安装五大核心组件 settings 配置管道存储

Scrapy框架-中间件和五大核心组件

Scrapy、Scrapy-redis组件

spark核心组件的核心

易组件——核心组件

abp vnext2.0核心组件之模块加载组件源码解析

scrapy-redis组件

Scrapy-redis 组件

scrapy 抓取数据核心代码

Scrapy异步框架核心原理

scrapy请求发送解析

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)