Scrapy框架学习（一）Scrapy框架介绍 - 代码天地

Scrapy框架学习（一）Scrapy框架介绍

其他 2018-11-15 20:14:33 阅读次数: 0

Scrapy框架的架构图如上。

Scrapy中的数据流由引擎控制，数据流的过程如下：

1.Engine打开一个网站，找到处理该网站的Sprider，并向该Sprider请求第一个要爬取得URL。

2.Engine从Sprider中获取到第一个要爬的URL，并通过Scheduler以Request的形式调度。

3.Engine向Scheduler请求下一个要爬取的URL。

4.Scheduler返回下一个要爬取的URl给Engine，Engine将URL通过Downloader Middlewares转发给Downloader下载。

5.一旦页面下载完毕，Downloader生成该页面的Response，并将其通过Downloader Middlewares发送给Engine。

6.Engine从下载器中接收到Response，并将其通过Spider Middlewares 发送给Sprider处理。

7.Sprider处理Response，并返回爬取到的Item和新的Requests给Engine。

8.Engine将Sprider返回的Item给Item Pipeline，将新的Request给Scheduler。

9.重复2-8步，直到Scheduler没有更多的Request，Engine关闭网站，爬取结束。

项目文件结构如下：

scrapy.cfg ------------------------配置文件，定义了项目的配置文件路径，部署相关信息等内容

project/　　　　　　　　　　　　

　　__init__.py　　　　　　　　　　

　　items.py ------------------------定义Item数据结构，所有Item的定义都放在这里

　　pipelines.py ------------------------定义Item Pipeline,所有的Item Pipeline的实现放在这里

　　settings.py ------------------------定义项目的全局配置

　　middlewares.py ------------------------定义Sprider Middlewares 与Downloader Middlewares

　　spriders/

　　　　__init__.py

　　　　sprider1.py ------------------------每个Sprider文件包含一个Sprider的实现，可以有多个Sprider

　　　　sprider2.py

　　　　....

猜你喜欢

转载自www.cnblogs.com/wdl1078390625/p/9965703.html

Scrapy框架学习（一）Scrapy框架介绍

Scrapy框架的学习（一）

玩转 Scrapy 框架 (一)：Scrapy 框架介绍及使用入门

爬虫框架Scrapy学习（一）

爬虫Scrapy框架学习（一）

Scrapy爬虫框架学习一

scrapy框架介绍及安装

scrapy框架的介绍

Scrapy框架介绍

Scrapy 框架介绍

scrapy爬虫框架介绍

Scrapy 框架介绍及入门

爬虫scrapy框架介绍

【爬虫框架】Scrapy介绍

Scrapy框架（一）——初始Scrapy

Scrapy框架 Scrapy框架

Scrapy框架学习 - Scrapy框架的安装与使用

scrapy爬虫框架（一）：scrapy框架简介

Scrapy框架学习笔记

scrapy爬虫框架学习

Scrapy框架学习记录

Scrapy框架学习

Scrapy框架学习(二)

scrapy爬虫框架学习（一）scrapy的配置和项目创建

Scrapy（一）框架

一爬虫框架(scrapy)

scrapy爬虫框架(一)

scrapy框架-架构流程介绍

Python--Scrapy框架介绍

python爬虫框架scrapy介绍

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)