Scrapy安装以及目录结构介绍

一、Scrapy安装

如果顺利的话,直接使用下面的命令即可安装。

方法1:使用pip安装:pip install Scrapy。

方法2(推荐):使用国内豆瓣源进行安装,非常快:pip install -i https://pypi.douban.com/simple/ scrapy

二、Scrapy目录结构介绍

接下来以爬取某人的知乎回答内容为例来讲述Scrapy各目录的作用。

2.1、创建项目

在开始爬取之前,我们必须创建一个新的Scrapy项目。 进入我们打算存储代码的目录中,运行下列命令:

scrapy startproject Demo

该命令将会创建包含下列内容的Demo目录:


扫描二维码关注公众号,回复: 5011064 查看本文章

这些文件分别是:

1)scrapy.cfg: 项目的配置文件,现在可以先忽略。

2)Demo/: 该项目的python模块。

3)Demo/items.py: 项目中的item文件。

       Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样,可以通过创建一个 scrapy.Item 类, 并且定义类型为 scrapy.Field 的类属性来定义一个Item。

4)Demo/pipelines.py: 项目中的pipelines文件。

      Scrapy提供了pipeline模块来执行保存数据的操作。在创建的 Scrapy 项目中自动创建了一个 pipeline.py 文件,同时创建了一个默认的 Pipeline 类。比如我们要把item提取的数据可以保存到mysql数据库。

5)Demo/settings.py: 项目的设置文件。

     settings.py是Scrapy中比较重要的配置文件,里面可以设置的内容非常之多。

6)Demo/spiders/: 放置spider代码的目录。

     这个很好理解,如下图,我们后面的示例,爬取豆瓣、微博、知乎的爬虫代码文件都存放在这个文件夹下的。

7)Demo/middlewares.py:中间件。
 


参考:https://www.jianshu.com/p/6df878054091

猜你喜欢

转载自blog.csdn.net/Floating__dream/article/details/86572468
今日推荐