scrapy框架流程 - 代码天地

scrapy框架流程

其他 2018-12-05 08:41:18 阅读次数: 0

版权声明：转载请注明来源谢谢! https://blog.csdn.net/qq_43004728/article/details/84587604

scrapy框架是基于python的爬虫框架,大致流程如下:
在这里插入图片描述

scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，
就能够快速的抓取到数据内容。 Scrapy 使用了 Twisted’twɪstɪd异步网络框
架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，
可以灵活的完成各种需求。
scrapy 框架的工作流程：
1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler
（调度器）。
2.Scheduler（排序，入队）处理后，经ScrapyEngine，DownloaderMiddlewares(可选，主要
有User_Agent， Proxy代理)交给Downloader。
3.Downloader向互联网发送请求，并接收下载响应（response）。将响应（response）经
ScrapyEngine，SpiderMiddlewares(可选)交给Spiders。
4.Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存（可以是本
地，可以是数据库）。提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url
请求程序停止结束。

scrapy 是一个Python爬虫框架，爬取效率极高，具有高度定制性，但是不支持分布式。而
scrapy-redis一套基于redis数据库、运行在scrapy 框架之上的组件，可以让scrapy 支持分布式策略，
Slaver端共享Master 端redis数据库里的item队列、请求队列和请求指纹集合。
为什么选择redis数据库，因为redis支持主从同步，而且数据都是缓存在内存中的，所以基于redis
的分布式爬虫，对请求和数据的高频读取效率非常高

猜你喜欢

转载自blog.csdn.net/qq_43004728/article/details/84587604

Scrapy框架原理及流程

scrapy框架流程

scrapy框架流程补充

Scrapy框架的流程

scrapy框架-架构流程介绍

scrapy + selenium + phantom框架流程

scrapy框架爬虫基本流程

scrapy 框架的工作流程

scrapy框架的概念和流程

爬虫框架之Scrapy运行流程

scrapy框架 - 基础概念和流程

浅析Scrapy框架运行的基本流程

Scrapy框架的组件和执行流程

基于Scrapy框架的网络爬虫开发流程

Scrapy框架爬虫基本使用流程

Python爬虫 scrapy框架原理，scrapy开发流程

Scrapy爬虫框架使用流程、框架、储存模式介绍

Scrapy框架的学习(1.scrapy的概念以及scrapy的工作流程)

Learning Scrapy《精通Python爬虫框架Scrapy》 03：Scrapy的工作流程

Scrapy框架 Scrapy框架

scrapy流程

【Python爬虫】Scrapy框架的核心架构和执行流程

python爬虫基础（13：Scrapy框架之架构流程与目录）

scrapy框架01_基础概念和流程

Scrapy入门：简单爬虫项目梳理整个框架操作流程

scrapy爬虫框架 (1. Scrapy的基本介绍、使用流程、分组打印、pipelines（管道）使用）

scrapy 初识 scrapy框架

Scrapy 框架

scrapy框架

python Scrapy框架1—框架流程、结构和一个简单的例子

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)