python爬虫之scrapy(基本介绍)

·scrapy框架

在这里插入图片描述
一、engine模块
1、控制所有模块的数据流
2、根据条件触发事件
3、不需要用户修改

二、download
1、根据请求下载模块
2、不需要用户修改

三、scheduler
1、对所有请求进行调度管理
2、不需要用户修改
在这里插入图片描述
四、spider
1、解析download返回的response(响应)
2、产生爬取scraped item(爬取项)
3、产生额外的requests(爬取请求)

五、item pieplines
1、以流水线方式处理spider产生的爬取项。
2、由一组操作顺序组成,类似流水线,每个操作是一个Item pipeline.
3、可能操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。
在这里插入图片描述

·requests 与 scrapy的比较

相同点:
在这里插入图片描述
不同点
在这里插入图片描述
选用哪个技术路线(requests or scrapy)来实现爬虫
在这里插入图片描述

·scrapy的常用命令

一、scrapy命令行
在这里插入图片描述
二、格式:

 >scrapy<command>[options][args]
 //command就是scrapy命令

三、scrapy常用命令
在这里插入图片描述
四、scrapy爬取的命令行逻辑
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_44105778/article/details/86596046