scrapy专利爬虫(一)——scrapy简单介绍

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/will4906/article/details/72625164

scrapy专利爬虫(一)——scrapy简单介绍

概述

scrapy是一款方便,快捷的开源爬虫框架。

An open source and collaborative framework for extracting the data you need from websites.

In a fast, simple, yet extensible way.

上一版本中,笔者采用selenium的方式进行数据采集,采集速度偏慢,而且有莫名的原因会导致第一次采集失败。改用scrapy之后,就像鸟枪换大炮一般,效果显著。

特点

  • 多线程

尽管python中存在着GIL锁,导致多线程的效果不是特别理想,但是对于网络请求这种本身就需要等待的事件来说,多线程的作用还是非常大的。无需使程序花大量的时间在等待请求反馈上,可以腾出手去处理别的事情。

  • 默认自动去掉重复链接

不停地访问一个网站对服务器的压力也是蛮大的,scrapy使用DUPEFILTER_CLASS自动去除重复发送的请求。减轻了爬取对象服务器的压力,也降低了爬虫被发现的风险。

  • 简单易用,结构清晰

借用一下官方的图

scrapy架构图

​ 从图上可以看出scrapy分为,item,pipeline,scrapy engine,downloader,spider等几个部分。本项目只使用了一下 item, pipeline,downloader middlewares, spider等一部分组件。对于普通项目,使用这些部分也已经可以满足大部分需求。

安装

笔者只在windows系统中尝试过scrapy,至于其他系统,请自行到查询。

pip install scrapy

使用pip安装即可,但是安装过程中经常会出现各种报错,通常都是以为安装过程中一些库安装不上所致。需要开发者查看安装过程中输出的报错,根据报错再到对应库的官网上将whl文件下载下来,用pip install 将whl文件安装即可。笔者在安装过程中遇到的问题是twisted的库安装不上,下载下来安装后便可正常。

源码下载

赞赏
微信支付 支付宝
微信 支付宝

猜你喜欢

转载自blog.csdn.net/will4906/article/details/72625164