Scrapy学习笔记(1) --Scrapy的介绍

一、Scrapy简介
Scrapy,Python开发的一个快速(基于异步处理框架Twisted)、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

二、Scrapy的构成
这里写图片描述
Scrapy主要由以下组件组成:
Scheduler:url调度器,接收来自Scrapy Engine的请求,并压入队列,在Scrapy Engine需要的时候返回。即在调度器里面由个url队列,按照某种优先级存放着许多url,新来的url放在队尾,引擎发出请求则将第一个url出队。
Spiders:即爬虫,对下载器下载好的网页进行爬取,爬取好的数据填充到item里。
Downloader:即下载器,根据引擎包装好的Requests对互联网上的服务器发出请求,并将返回的Responses交给爬虫进行数据的爬取。
Scrapy Engine:整个爬虫框架的引擎,为其他几个组建的纽带。
Item Pipeline:对爬虫爬取到的数据进行处理,有点像Django里的Models.
另外还有三个中间件:
Scheduler Middlewares:处于引擎与调度器间,处理引擎与调度器之间的请求与响应。
Spiders Middlewares:处于Spider与引擎之间,处理引擎与爬虫之间的请求与响应。
Downloader Middlewares:处于下载器与引擎之间,处理引擎与下载器之间的请求与响应。
Scrapy的运行大概流程为:
1.Scrapy Engine向调度器发出请求,得到一个url后封装成request发送给下载器
2.下载器将request进行请求,然后将得到的response发送给爬虫
3.爬虫对收到的response进行数据的爬取。
4.爬虫将解析到的实体交给管道进行进一步处理,将解析到的url发送给调度器等待请求。

三、Scrapy的安装
直接命令行安装
pip3 install scrapy
如果出现某个依赖下载错误可以再执行上面的命令一次,如果不成功则pip3 install 缺少的包。

猜你喜欢

转载自blog.csdn.net/Noob_coder_JZ/article/details/81265128