Python爬虫学习（七）Scrapy爬虫框架详解

其他 2020-04-23 09:01:02 阅读次数: 0

（六）Scrapy爬虫框架

(1)Scrapy爬虫框架结构

Scrapy不是一个函数功能库，而是一个爬虫框架
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫

在这里插入图片描述

看结构：分布式、“5+2”结构
看流程：数据流

1.数据流的路径

Engine从Spider处获得爬取请求（Request）
Engine将爬取请求转发给Scheduler，用于调度
Engine从Scheduler处获得下一个要爬取的请求
Engine将爬取请求通过中间件发送给Downloader
爬取网页后，Downloader形成响应（Response）通过中间件发给Engine
Engine将收到的响应通过中间件发送给Spider处理
Spider处理响应后产生爬取项（scraped Item）和新的爬取请求（Request）给Engine
Engine将爬取项发送给Item Pipeline（框架出口）
Engine将爬取请求发送给Scheduler

2.数据流的出入口

Engine控制各模块数据流，不间断ongoingScheduler处获得爬取请求，直至请求为空
框架入口：Spider的初始爬取请求
框架出口：Item Pipeline

3.模块解析

Engine
- 控制所有模块之间的数据流
- 根据条件触发事件
- 不需要用户修改
Downloader
- 根据请求下载网页
- 不需要用户修改
Scheduler
- 对所有爬取请求进行调度管理
- 不需要用户修改
Downloader Middleware
- 实施Engine、Scheduler和Downloader之间进行用户可配置的控制
- 修改、丢弃、新增请求或响应
- 用户可以编写配置代码
Spider
- 解析Downloader返回的响应（Response）
- 产生爬取项（scraped item）
- 产生额外的爬取请求（Request）
- 需要用户编写配置代码
Item Pipelines
- 以流水线方式处理Spider产生的爬取项
- 由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
- 可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库
- 需要用户编写配置代码
Spider Middleware
- 对请求和爬取项的再处理
- 修改、丢弃、新增请求或爬取项
- 用户可以编写配置代码

(2)requests库和Scrapy爬虫的比较

相同点：
两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

如何选择技术路线
非常小的需求，requests库
不太小的需求，Scrapy框架

扫描二维码关注公众号，回复： 11062794 查看本文章
定制程度很高的需求（不考虑规模），自搭框架requests>Scrapy

(3)Scrapy爬虫的常用命令

Scrapy命令行

scrapy -h 命令

scrapy [options] [args] Scrapy命令行格式

在这里插入图片描述

命令行（不是图形界面）更容易自动化，适合脚本控制
数据、将数据存储到数据库
- 需要用户编写配置代码

Spider Middleware
- 对请求和爬取项的再处理
- 修改、丢弃、新增请求或爬取项
- 用户可以编写配置代码

(2)requests库和Scrapy爬虫的比较

相同点：
两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

如何选择技术路线
非常小的需求，requests库
不太小的需求，Scrapy框架
定制程度很高的需求（不考虑规模），自搭框架requests>Scrapy

(3)Scrapy爬虫的常用命令

Scrapy命令行

scrapy -h 命令

scrapy [options] [args] Scrapy命令行格式

[外链图片转存中…(img-QQ2eu90d-1587603530585)]

命令行（不是图形界面）更容易自动化，适合脚本控制
本质上，Scrapy是给程序员用的，功能（而不是界面）更重要

浩然丶

发布了10 篇原创文章 · 获赞 1 · 访问量 131

私信关注

猜你喜欢

转载自blog.csdn.net/qq_39419113/article/details/105699274

Python爬虫学习（七）Scrapy爬虫框架详解

Python爬虫Scrapy框架详解

python爬虫框架——Scrapy学习

Python Scrapy爬虫框架学习

python爬虫框架Scrapy学习

python爬虫笔记（七）:使用Scrapy框架

七 Python之scrapy爬虫框架

Python 爬虫七 Scrapy

爬虫Scrapy框架详解

爬虫框架 Scrapy 详解

python爬虫-scrapy爬虫框架

python爬虫框架scrapy实例详解

Python爬虫框架之Scrapy详解

Python学习---爬虫学习[scrapy框架初识]

【python学习】scrapy爬虫框架学习

scrapy 框架 python 爬虫

python爬虫-scrapy框架

python爬虫scrapy框架

Python爬虫框架—Scrapy

Python爬虫框架Scrapy

python爬虫--scrapy框架

python：爬虫：Scrapy框架

Python爬虫---scrapy框架

Python爬虫---scrapy框架

Python爬虫—scrapy框架

scrapy爬虫框架学习

Python爬虫框架Scrapy学习笔记原创

Python学习笔记——爬虫之Scrapy框架

Python爬虫框架Scrapy学习笔记

学习Python爬虫必备框架：Scrapy

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)