Pthon Scrapy框架的安装与使用

网络爬虫，是在网上进行数据爬取的程序，使用它能够抓取特定网页的html数据，我们可以在一个py文件中引入一个又一个的模块来进行爬取，但使用框架可以更快速的来帮助我们爬取数据，提高爬取效率。Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

今天这篇文章就来讲讲scrapy的安装与scrapy的一些简单的语法

一、scrapy安装：

这里介绍两种安装方法：

1.基于Anaconda的

如果你已经安装了Anaconda，那么可以非常简单的通过在命令提示符中输入 conda install scrapy 命令快速的安装Scrapy，

win+r 输入cmd 然后回车打开命令提示符输入conda install scrapy

安装完成之后怎么验证Scrapy是否安装成功呢？在命令提示符中输入 scrapy 命令如果显示结果如下图，那么就表示Scrapy安装成功

如果你没安装Anaconda，你可以选择安装Anaconda或者使用下面的方法

Anaconda下载地址：https://www.anaconda.com/download/

2.安装Twisted

Tuisted的下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

cp36：pycharm3.6，代表的是你使用的pycharm的版本

win32代表的是32位的Windows操作系统

这里要根据你的情况来选择安装，我用的是pycharm3.6版本的

下载完之后 win + r >>cmd >回车打开命令提示符

输入pip install Twisted-18.7.0-cp36-cp36m-win32.whl，当然install后面的文件名要根据你下载的文件名来写，

或者你下载完之后直接把文件放在桌面，打开命令提示符输入pip install，然后把文件拖进去

安装完成之后再输入 pip install scrapy即可安装Scrapy

安装完成之后输入 scrapy 命令验证是否安装成功，结果同Anaconda

二、Scrapy基本命令

在命令提示符中输入scrapy后会出现下列命令：

在pychar中先创建一个Scrapy框架文件用来存放后面的项目，在命令提示符中输入cd 文件路径 跳转到Scrapy框架文件下

然后输入 scrapy startproject 项目名

打开pycharm查看文件，已创建

items.py:项目的目标文件

middlewares.py：项目的中间文件

pipelines.py项目的管道文件

settings.py：项目的设置文件

scrapy.cfg：项目的配置文件

切换到命令提示符

根据提示进行先 cd baidu此时光标在第一个baidu文件夹路径下，

然后再输入一个cd baid 跳转到第二个baidu文件夹下

然后再输入一个cd spiders，跳转到spiders文件夹下

然后输入scrapy genspider baiduSpider baidu.com

如果不跳转到spiders文件中执行命令也可以，命令会将baiduSpider.py自动创建到spiders文件夹下

scrapy genspider 文件名要爬取的目标域名，这里的域名以baidu.com为例。注意：文件名要与项目名不同

至此 Scrapy框架就创建成功了，此时再在命令提示符中输入scrpay命令可以看到多出了几条命令

check 检查，crawl 运行，edit 编译，list 列出，parse 解析

打开baiduSpider.py输入下面的代码，并将网址补全，添上www.

注意：写完之后我们可以改一下settings.py中的一些代码，settings.py文件当中的代码是自动生成的，应该都是一样的，

将22行的代码True改为False ，这个表示是否遵循爬虫协议，不改的话有些网站不让我们爬，我这里选择的是不遵守

将67到69行的代码解注释并将300改为1，改变项目的优先级，值越小，优先级越高

可以不改，我这儿改只是为了方便执行

效果如下：

settings.py改之前

settings.py文件改之后：

之后我们来执行一下，在命令提示符中输入 scrapy crawl baiduSpider 执行成功会出现指定网站的网页源码

结果为：

以上就是scrapy的安装与一些基本命令。