scrapy parse（）方法工作机制，以及scrapy中是不是只有parse中的对象能返回给pipelines中 - 代码天地

scrapy parse（）方法工作机制，以及scrapy中是不是只有parse中的对象能返回给pipelines中

其他 2019-04-23 16:11:54 阅读次数: 0

参考链接：http://blog.csdn.net/one_day123/article/details/77481655

1. 因为使用的yield，而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并判断该结果是一个什么样的类型；
2. 如果是request则加入爬取队列，如果是item类型则使用pipeline处理，其他类型则返回错误信息。
3. scrapy取到第一部分的request不会立马就去发送这个request，只是把这个request放到队列里，然后接着从生成器里获取；
4. 取尽第一部分的request，然后再获取第二部分的item，取到item了，就会放到对应的pipeline里处理；
5. parse()方法作为回调函数(callback)赋值给了Request，指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse)
6. Request对象经过调度，执行生成 scrapy.http.response()的响应对象，并送回给parse()方法，直到调度器中没有Request（递归的思路）
7. 取尽之后，parse()工作结束，引擎再根据队列和pipelines中的内容去执行相应的操作；
8. 程序在取得各个页面的items前，会先处理完之前所有的request队列里的请求，然后再提取items。
9. 这一切的一切，Scrapy引擎和调度器将负责到底。

由此可见，不是只有parse中的对象能返回给pipelines中，如果你继续对parse方法，继续用回调函数

yield Request(url, headers=header, callback=next)

则回调函数中返回的item也可以在pipelines.py中，进行数据处理。

另外，在yield后面代码也要注意，因为，它会先执行yield后面代码，执行完后，再到request队列中取request，才会调用回调函数。

猜你喜欢

转载自blog.csdn.net/qq_43546676/article/details/89058986

scrapy parse（）方法工作机制，以及scrapy中是不是只有parse中的对象能返回给pipelines中

Scrapy(爬虫框架)中，Spider类中parse()方法的工作机制

scrapy-parse()方法的工作机制

scrapy parse（）方法工作机制（转）

scrapy

python从入门到放弃自学笔记2-scrapy框架中的parse()方法工作机制及应用

scrapy parse()中 yield的作用分析

Scrapy 中mongodb pipelines 异步写法

scrapy框架中多个spider,tiems,pipelines的使用及运行方法

Scrapy终端（Scrapy shell）

scrapy程序（scrapy）

scrapy的xpath，scrapy shell

scrapy 初识 scrapy框架

Scrapy框架 Scrapy框架

scrapy的使用-scrapy shell

Scrapy：Scrapy shell

scrapy篇(2)scrapy中的spider部分

scrapy中的settings设置

scrapy中xpath的用法

Scrapy 中 log 功能

Anaconda中安装Scrapy

Ubuntu中scrapy 的安装

PyCharm中Scrapy的安装

Python中Scrapy的使用

python中scrapy的学习

scrapy 中遇到的问题

Hbase在Scrapy中的应用

scrapy中selenium的应用

Pycharm中的scrapy安装

scrapy xpath()中的/与//的区别

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)