爬虫框架——Scrapy

一、Scrapy介绍

1、Scrapy是什么

  Scrapy 是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

2、何谓框架

  所谓框架其实就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
  scrapy和requests、bs4的关系,可以做如下类比:

requests + bs4 => socket
scrapy框架 => django

  Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发(基于Twisted实现单线程并发下载页面)。也具备解析下载内容功能、帮助实现“递归”、帮助完成数据持久化(数据写入硬盘或数据库)、还具备一些扩展性功能(自定义组件)。

二、Scrapy安装

1、Windows平台

1、安装wheel
    pip3 install wheel   # 安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs
2、下载twisted(Scrapy基于twisted框架):
    http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    安装twisted:
    进入下载目录,执行: 
    pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
3、下载并安装pywin32:    
    pip3 install pywin32
4、安装scrapy
    pip3 install scrapy

2、Linux平台

    pip3 install scrapy

  
十、更多文档参考

Scrapy 0.25 文档
wupeiqi的Scrapy
爬虫框架:scrapy

猜你喜欢

转载自www.cnblogs.com/xiugeng/p/10035828.html