爬虫框架——Scrapy

一、Scrapy介绍

1、Scrapy是什么

　　Scrapy 是一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

2、何谓框架

　　所谓框架其实就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。
　　scrapy和requests、bs4的关系，可以做如下类比：

requests + bs4 => socket
scrapy框架 => django

　　Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发（基于Twisted实现单线程并发下载页面）。也具备解析下载内容功能、帮助实现“递归”、帮助完成数据持久化（数据写入硬盘或数据库）、还具备一些扩展性功能（自定义组件）。

二、Scrapy安装

1、Windows平台

1、安装wheel
    pip3 install wheel   # 安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
2、下载twisted（Scrapy基于twisted框架）：
    http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    安装twisted:
    进入下载目录，执行： 
    pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
3、下载并安装pywin32：    
    pip3 install pywin32
4、安装scrapy
    pip3 install scrapy

2、Linux平台

    pip3 install scrapy