爬虫之scrapy工作流程简单介绍 - 代码天地

爬虫之scrapy工作流程简单介绍

其他 2018-07-20 09:08:56 阅读次数: 0

Scrapy是什么？

scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

异步与非阻塞的区别：异步：调用在发出之后，这个调用就直接返回，不管有无结果

非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程。

scrapy框架的工作流程：

1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。

2.Scheduler（排序，入队）处理后，经ScrapyEngine，DownloaderMiddlewares(可选，主要有User_Agent, Proxy代理)交给Downloader。

3.Downloader向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给Spiders。　　　　　

4.Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存（可以是本地，可以是数据库）。

5.提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

猜你喜欢

转载自blog.csdn.net/miner_zhu/article/details/81094077

爬虫之scrapy工作流程简单介绍

scrapy工作流程

Scrapy 工作流程

CA认证简单介绍与工作流程

Learning Scrapy《精通Python爬虫框架Scrapy》 03：Scrapy的工作流程

scrapy 框架的工作流程

Scrapy----Scrapy架构及工作流程

网络爬虫的工作流程

理解爬虫的工作流程

CA认证简单介绍和工作流程

Scrapy数据流的工作流程

scrapy 原理图及工作流程

Scrapy的简介及工作流程讲解

【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介

struts简单工作流程

工作流简单介绍

Zigbee之工作流程

springmvc之工作流程

垂直爬虫工作流程详解

scrapy专利爬虫（一）——scrapy简单介绍

Python爬虫分布式架构 - Redis/RabbitMQ工作流程介绍

Flume工作流程及相关介绍

Git 工作流程介绍(二)

Spring MVC原理介绍（工作流程）

爬虫之Scrapy框架介绍

Spring MVC工作流程及简单搭建

DHCP工作流程与简单配置

Git的工作流程简单易懂

Gerrit 工作流程及简单使用

网络爬虫开发(一)-爬虫基础——基本介绍-爬虫是请求网站并提取数据的自动化程序、爬虫的基本工作流程 & 实例之发送http请求-爬取网址的网页信息

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)