【Scrapy 框架】「版本2.4.0源码」架构解析（Architecture overview）详解篇

其他 2021-03-01 07:58:17 阅读次数: 0

全部源码解析文章索引目录传送门

【Scrapy 框架】版本 2.4.0 源码篇：全部配置目录索引

文章目录

内容介绍
业务处理流程
各个组件部分

内容介绍

本文档介绍了Scrapy的体系结构及其组件之间的交互方式。

业务处理流程

在这里插入图片描述

该引擎获取从最初请求爬行spider。
该引擎安排在请求调度程序和要求下一个请求爬行。
该计划返回下一请求的引擎。
该引擎发送请求到下载器，通过下载器中间件。
页面下载完成后， Downloader会生成一个带有该页面的响应，并将其发送到Engine，并通过 Downloader Middlewares。
该引擎接收来自响应下载器并将其发送到所述 spider进行处理，通过spider中间件。
该spider处理响应并返回刮下的项目和新的要求（跟随）的引擎，通过spider中间件。
该引擎发送处理的项目，以项目管道，然后把处理的请求的调度，并要求新的请求爬行。
重复该过程（从步骤1开始），直到不再有Scheduler的请求为止。

各个组件部分

Scrapy引擎
引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。
Scheduler
调度程序从引擎接收请求，并在引擎请求它们时将它们排队，以便以后将它们（也发送到引擎）提供给它们。
Downloader
下载器负责获取网页并将其馈送到引擎，引擎又将其馈给spider。
Spiders
spider是由Scrapy用户写入解析响应和提取自定义类的Item。
Item Pipeline
一旦spider将它们提取（或Scrapy），项目管道负责处理项目。典型的任务包括清理，验证和持久性（例如将项目存储在数据库中）。
如果需要执行以下操作之一，请使用Downloader中间件：

在将请求发送到下载器之前处理请求（即，在Scrapy将请求发送到网站之前）；
在传递给spider之前更改收到的响应；
发送新的请求，而不是将收到的响应传递给spider；
将响应传递给spider，而无需获取网页；
默默地丢弃一些请求。

Spider middlewares
蛛中间件是位于引擎和spider之间的特定挂钩，并且能够处理spider的输入（响应）和输出（项目和请求）。
如果需要执行以下操作之一，请使用Spider中间件

spider回调的后处理输出-更改/添加/删除请求或项目；
后处理start_requests;
处理spider异常；
根据响应内容，对某些请求调用errback而不是回调。

Event-driven networking
Scrapy用Twisted编写，Twisted是一种流行的事件驱动的Python网络框架。因此，使用异步代码并发实现的。

猜你喜欢

转载自blog.csdn.net/qq_20288327/article/details/113524228

【Scrapy 框架】「版本2.4.0源码」架构解析（Architecture overview）详解篇

【Scrapy 框架】「版本2.4.0源码」管道（Pipeline）详解篇

【Scrapy 框架】「版本2.4.0源码」设置（Settings）详解篇

【Scrapy 框架】「版本2.4.0源码」异常操作（Exceptions）详解篇

【Scrapy 框架】「版本2.4.0源码」物品（Items）详解篇

【Scrapy 框架】「版本2.4.0源码」爬虫页（Spiders）详解篇

【Scrapy 框架】「版本2.4.0源码」Downloader 中间件（Downloader Middleware）详解篇

【Scrapy 框架】「版本2.4.0源码」Spider中间件（Spider Middleware）详解篇

【Scrapy 框架】「版本2.4.0源码」选择器（Selectors）详解篇

【Scrapy 框架】「版本2.4.0源码」链接提取器（Link Extractors）详解篇

【Scrapy 框架】「版本2.4.0源码」请求和回应（Requests and Responses）详解篇

【Scrapy 框架】「版本2.4.0源码」输出文件（Feed exports）详解篇

【Scrapy 框架】「版本2.4.0源码」物品管道（Item Pipeline）详解篇

【Scrapy 框架】「版本2.4.0源码」物品加载（Item Loaders）详解篇

A Swing Architecture Overview

RDMA Architecture Overview

Scrapy框架初级篇

爬虫Scrapy框架详解

Scrapy框架详解

爬虫框架 Scrapy 详解

overview

Spring Security(一)--Architecture Overview

ARMv8-A architecture overview

爬虫框架 Scrapy 教程详解

scrapy框架的使用，内部详解

爬虫框架（Scrapy）安装详解

Python爬虫Scrapy框架详解

Android平台架构Overview

scrapy爬虫框架（四）：scrapy中 yield使用详解

Scrapy框架实战（三）：详解 Scrapy 的 Item Pipeline

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)