python爬虫Scrapy框架精选01集 - 代码天地

python爬虫Scrapy框架精选01集

其他 2021-03-22 23:02:15 阅读次数: 0

scrapy的概念和流程

学习目标：

了解 scrapy的概念
了解 scrapy框架的作用
掌握 scrapy框架的运行流程
掌握 scrapy中每个模块的作用

1. scrapy的概念

Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy 使用了Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。

Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

2. scrapy框架的作用

少量的代码，就能够快速的抓取

3. scrapy的工作流程

3.1 回顾之前的爬虫流程

3.2 上面的流程可以改写为

3.3 scrapy的流程

其流程可以描述如下：

爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据

注意：

图中中文是为了方便理解后加上去的
图中绿色线条的表示数据的传递
注意图中中间件的位置，决定了其作用
注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

3.4 scrapy的三个内置对象

request请求对象：由url method post_data headers等构成
response响应对象：由url body status headers等构成
item数据对象：本质是个字典

3.5 scrapy中每个模块的具体作用

注意：

爬虫中间件和下载中间件只是运行逻辑的位置不同，作用是重复的：如替换UA等

小结

scrapy的概念：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架
scrapy框架的运行流程以及数据传递过程：
1. 爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
2. 调度器把request–>引擎–>下载中间件—>下载器
3. 下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
4. 爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
5. 爬虫提取数据—>引擎—>管道处理和保存数据
scrapy框架的作用：通过少量代码实现快速抓取
掌握scrapy中每个模块的作用：
引擎(engine)：负责数据和信号在不腰痛模块间的传递
调度器(scheduler)：实现一个队列，存放引擎发过来的request请求对象
下载器(downloader)：发送引擎发过来的request请求，获取响应，并将响应交给引擎
爬虫(spider)：处理引擎发过来的response，提取数据，提取url，并交给引擎
管道(pipeline)：处理引擎传递过来的数据，比如存储
下载中间件(downloader middleware)：可以自定义的下载扩展，比如设置代理ip
爬虫中间件(spider middleware)：可以自定义request请求和进行response过滤，与下载中间件作用重复

猜你喜欢

转载自blog.csdn.net/weixin_38640052/article/details/115059230

python爬虫Scrapy框架精选01集

python爬虫精选01集（初识爬虫）

python爬虫面试精选01集

scrapy 框架 python 爬虫

python爬虫-scrapy框架

python爬虫scrapy框架

Python爬虫框架—Scrapy

Python爬虫框架Scrapy

python爬虫--scrapy框架

python：爬虫：Scrapy框架

Python爬虫---scrapy框架

Python爬虫---scrapy框架

Python爬虫—scrapy框架

python爬虫-scrapy爬虫框架

python爬虫框架——Scrapy学习

Python 爬虫（一）scrapy框架

Python之Scrapy爬虫框架

python爬虫框架scrapy介绍

Python Scrapy爬虫框架学习

Python爬虫框架Scrapy实例

Python爬虫框架Scrapy的使用

python爬虫框架scrapy安装

Python之scrapy框架爬虫

Python_Scrapy爬虫框架

python爬虫框架Scrapy学习

python 爬虫scrapy框架（二）

python 爬虫 scrapy框架（一）

python爬虫之Scrapy框架

python爬虫框架Scrapy的安装

python爬虫（4）——scrapy框架

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)