nide

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途十分广泛；
框架的力量能够让用户只需要开发几个模块就能实现爬虫，用来爬取网页内容或者图片，不用重造轮子，十分方便；
Scrapy使用了Twisted（其主要对手是Tornado）异步网路框架来处理网络通讯，可以加快我们程序的下载速度，不用自己取实现异步框架，并且还有各种中间件接口，可以完成各种需求

Scrapy框架图（绿线是数据流向）

Scrapy Engine（引擎）：负责Spider、ItemPipeline、Downloader、Scheduler之间的通信，调度和数据的传递等；
Scheduler(调度器)：负责引擎发过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时再交换给引擎；
Downloader（下载器）：负责下载 Scrapy Engine（引擎）发送过来的所有Reuqest请求，并将其从Internet获取Responses交还给Scrapy Engine（引擎），由引擎交给Spider处理；
Spider（爬虫）：负责处理所有的Responses，从中按照一定的规则获取Item字段需要的数据，并将需要跟进的Url提交给引擎，进入Scheduler（调度器）；
Item Pipeline（管道）：负责处理Spider中取得的Item,并进行后期处理（详细分析、过滤、存储等）；
Downloader Middlewares（下载中间件）：一个自定义下载功能的组件（比如用户登录、代理IP的设置等）；
Spider Middlewares（Spider中间件）：可以自定义扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses和从Spider出去的Rsquests）。

写Scrapy爬虫，一共需要4步

Windows安装方式

Ubuntu安装方式