scrapy爬虫框架之理解篇

其他 2018-09-26 14:16:59 阅读次数: 0

提问：为什么使用scrapy框架来写爬虫？

在python爬虫中：requests + selenium 可以解决目前90%的爬虫需求，难道scrapy 是解决剩下的10%的吗？显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。

1.scrapy 的基础概念：

　　scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

2. scrapy 的工作流程：

　　　　之前我们所写爬虫的流程：

那么 scrapy是如何帮助我们抓取数据的呢？

scrapy框架的工作流程：

1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。

2.Scheduler（排序，入队）处理后，经ScrapyEngine，DownloaderMiddlewares(可选，主要有User_Agent, Proxy代理)交给Downloader。

3.Downloader向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给Spiders。

4.Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存（可以是本地，可以是数据库）。

提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

猜你喜欢

转载自blog.csdn.net/qq_41996633/article/details/82388892

scrapy爬虫框架之理解篇

理解Scrapy爬虫框架架构

对scrapy经典框架爬虫原理的理解

Scrapy爬虫框架之入门篇

Python爬虫-Scrapy框架（序篇）

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

网络爬虫 - 10 深入理解Scrapy框架

[爬虫框架scrapy]scrapy的安装

Python爬虫开发【第1篇】【Scrapy框架】

Python网络爬虫之Scrapy框架初级篇

一篇文章搞定 Scrapy 爬虫框架

【Scrapy 框架】「版本2.4.0源码」爬虫页（Spiders）详解篇

爬虫scrapy的结构理解

Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】

Scrapy框架爬虫案例

爬虫框架之Scrapy

scrapy爬虫框架

爬虫框架Scrapy

爬虫Scrapy框架详解

scrapy 框架 python 爬虫

Scrapy爬虫框架（二）

python爬虫-scrapy框架

爬虫——Scrapy框架

爬虫 - Scrapy框架

爬虫----Scrapy框架

爬虫--scrapy框架

scrapy爬虫框架学习

scrapy 爬虫框架简介

爬虫之 scrapy框架

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)