46.Scrapy框架结构 - 代码天地

46.Scrapy框架结构

其他 2018-12-25 18:18:02 阅读次数: 0

Scrapy的介绍：
Scrapy是基于Twisted的异步处理框架，是纯python语言实现的爬虫框架，特点是架构清晰，模块间耦合度低、扩展性强较为灵活。

框架结构如图所示：

Engine：引擎，处理整个系统的数据流处理、触发事务，是整个框架的核心。

Item：项目，定义爬虫结果的数据结构，爬去的数据被赋值为该item对象。

Scheduler：调度器，接受引擎发过来的请求并将其加入队列中，在引擎再次请求时将请求提供给引擎。

Downloader：下载器，下载网页内容，并将内容返还给蜘蛛。

Spiders：蜘蛛，定义爬取的逻辑和网页的解析规则，主要负责解析响应并生成提取结果和新的请求。

Item Pipline：项目管道，负责处理由蜘蛛从网页抽取的项目，主要任务是清洗、验证和存储数据。

Downloader Middlerwares：下载中间件，位于引擎和下载器之间的钩子框架，主要处理引擎与下载器之间的请求及响应。

Spider Middlewares：蜘蛛中间件，位于引擎和蜘蛛之间的钩子框架，主要处理蜘蛛输入的响应和输出的结果及新的请求。

---恢复内容结束---

猜你喜欢

转载自www.cnblogs.com/lvjing/p/10175530.html

46.Scrapy框架结构

scrapy框架结构与工作原理

Python scrapy框架教学（二）：Scrapy 框架结构

scrapy学习笔记（二）框架结构工作原理

MVVM 框架结构

Opencv框架结构

springboot框架结构

Vue 框架结构

SSM框架结构

框架结构

集合框架结构

TMMi的框架结构

爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)

Python爬虫：Scrapy框架基础框架结构及腾讯爬取

ssm框架结构的搭建

Metasploit笔记---框架结构

Spring核心框架结构

iOS VirtualView框架结构

shiro(一)框架结构

SpringMvc的框架结构介绍

Java 集合框架结构

单列集合框架结构

框架结构标签 frameset

何为软件框架结构

flask celery 框架结构

Android 系统框架结构

【python爬虫学习笔记】08 Scrapy爬虫框架结构及常用命令

hadoop框架结构学习简述

spring mvc框架结构浅析（一）

spring mvc框架结构浅析（三）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)