Pthon Scrapy框架的安装与使用

网络爬虫,是在网上进行数据爬取的程序,使用它能够抓取特定网页的html数据,我们可以在一个py文件中引入一个又一个的模块来进行爬取,但使用框架可以更快速的来帮助我们爬取数据,提高爬取效率。Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。

今天这篇文章就来讲讲scrapy的安装与scrapy的一些简单的语法

一、scrapy安装:

这里介绍两种安装方法:

1.基于Anaconda的

如果你已经安装了Anaconda,那么可以非常简单的通过在命令提示符中输入 conda install scrapy 命令快速的安装Scrapy,

win+r  输入cmd 然后回车 打开命令提示符 输入conda install scrapy

安装完成之后怎么验证Scrapy是否安装成功呢?在命令提示符中输入 scrapy 命令如果显示结果如下图,那么就表示Scrapy安装成功 

如果你没安装Anaconda,你可以选择安装Anaconda或者使用下面的方法

Anaconda下载地址:https://www.anaconda.com/download/

2.安装Twisted

Tuisted的下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

cp36:pycharm3.6,代表的是你使用的pycharm的版本

win32代表的是32位的Windows操作系统

这里要根据你的情况来选择安装,我用的是pycharm3.6版本的

下载完之后 win + r >>cmd >回车打开命令提示符

输入pip install Twisted-18.7.0-cp36-cp36m-win32.whl,当然install后面的文件名要根据你下载的文件名来写,

或者你下载完之后直接把文件放在桌面,打开命令提示符输入pip install,然后把文件拖进去

安装完成之后再输入 pip install scrapy即可安装Scrapy

安装完成之后输入 scrapy 命令验证是否安装成功,结果同Anaconda

二、Scrapy基本命令

在命令提示符中输入scrapy后会出现下列命令:

在pychar中先创建一个Scrapy框架文件用来存放后面的项目,在命令提示符中输入cd 文件路径 跳转到Scrapy框架文件下

然后输入 scrapy startproject 项目名

打开pycharm查看文件,已创建

items.py:项目的目标文件

middlewares.py:项目的中间文件

pipelines.py项目的管道文件

settings.py:项目的设置文件

scrapy.cfg:项目的配置文件

切换到命令提示符

根据提示进行先 cd baidu此时光标在第一个baidu文件夹路径下,

然后再输入一个cd baid 跳转到第二个baidu文件夹下

然后再输入一个cd spiders,跳转到spiders文件夹下

然后输入scrapy genspider baiduSpider baidu.com

如果不跳转到spiders文件中执行命令也可以,命令会将baiduSpider.py自动创建到spiders文件夹下

scrapy genspider  文件名 要爬取的目标域名,这里的域名以baidu.com为例。注意:文件名要与项目名不同

至此 Scrapy框架就创建成功了,此时再在命令提示符中输入scrpay命令可以看到多出了几条命令

check 检查,crawl 运行,edit 编译,list 列出,parse 解析

打开baiduSpider.py输入下面的代码,并将网址补全,添上www. 

注意:写完之后我们可以改一下settings.py中的一些代码,settings.py文件当中的代码是自动生成的,应该都是一样的,

将22行的代码True改为False ,这个表示是否遵循爬虫协议,不改的话有些网站不让我们爬,我这里选择的是不遵守

将67到69行的代码解注释并将300改为1,改变项目的优先级,值越小,优先级越高

可以不改,我这儿改只是为了方便执行

效果如下:

settings.py改之前

 settings.py文件改之后:

之后我们来执行一下,在命令提示符中输入 scrapy crawl baiduSpider 执行成功会出现指定网站的网页源码

结果为:

以上就是scrapy的安装与一些基本命令。

猜你喜欢

转载自blog.csdn.net/qq_42603652/article/details/81347077