Scrapy框架的学习(1.scrapy的概念以及scrapy的工作流程) - 代码天地

Scrapy框架的学习(1.scrapy的概念以及scrapy的工作流程)

其他 2019-01-13 23:20:18 阅读次数: 0

scrapy的概念

1.为什么要学习Scrapy？

因为会让我们的爬虫更快、更强

2.什么是scrapy？

(1) Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取

*** 框架：特定需求下的所有功能*** ，知道框架和模块的区别

（2）Scrapy 使用了 Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。

（3）Scrapy的官方文档 http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

3. 异步与非阻塞的区别（补充）

(1) 同步或异步指的是这样的一个过程

阻塞或非阻塞指的是拿到结果之前的状态

(2) 异步：调用在发出之后，这个调用就直接返回，不管有无结果

(3)非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程。

scrapy的工作流程

1. 之前使用的爬虫流程，获取响应内容，提取数据、保存数据等

如图：

2.scrapy的爬虫流程

图的解释：

(1) 中间 Scrapy Engline (scrapy 引擎) ：这个四个大模块是独立的，彼此之间没有联系，之间的联系都是通过

scrapy引擎来进行调度，scrapy引擎让谁执行谁就执行，类似于指挥交通的交警

（2）Downloader Middlewares （下载中间键）：引擎会先把Requets对象交给下载中间键再然后交给Downloader

（3） Spider Middlewares (爬虫中间键) ： 引擎会先把response交给爬虫中间键再交给Spiders

(4) 因为有引擎的存在，所以可以在中间键进行一些处理

猜你喜欢

转载自blog.csdn.net/wei18791957243/article/details/86154068

Scrapy框架的学习(1.scrapy的概念以及scrapy的工作流程)

scrapy 框架的工作流程

1.Scrapy at a glance

1.scrapy爬虫

scrapy工作流程

Scrapy 工作流程

二(1.scrapy)Scrapy--item

Scrapy----Scrapy架构及工作流程

Learning Scrapy《精通Python爬虫框架Scrapy》 03：Scrapy的工作流程

二十七、scrapy的概念和工作流程

Scrapy中的核心工作流程以及POST请求

1.scrapy基础知识

scrapy框架的概念和流程

Scrapy数据流的工作流程

scrapy 原理图及工作流程

Scrapy的简介及工作流程讲解

scrapy框架 - 基础概念和流程

爬虫初阶（六）—— Scrapy框架（1）scrapy的基础概念

scrapy的概念和流程

Scrapy框架爬虫学习--1

Scrapy爬虫框架（概念）

Scrapy框架原理及流程

scrapy框架流程

scrapy框架流程补充

Scrapy框架的流程

爬虫之scrapy工作流程简单介绍

scrapy核心组件工作流程和post请求

Scrapy框架 Scrapy框架

Scrapy框架——安装以及新建scrapy文件

Scrapy框架学习 - Scrapy框架的安装与使用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)