pyhton爬虫学习（十二）：Scrapy的全局命令介绍

上一节讲了scrapy环境的安装，不清楚的可以先看一下 pyhton爬虫学习（十一）：Scrapy的安装

这节开始scrapy常用的命令。可以通过scrapy -h查看常用的一些命令。这边主要介绍全局的命令。

startproject命令

对scrapy爬虫项目的创建，目前是通过命令创建。比如你有一个文件夹python，要在这个文件里面建一个名为helloworld的scrapy爬虫项目。先用cd命令进入python文件里面，通过命令scrapy startproject helloworld，这个时候在python就多了一个helloworld，一个scrapy的爬虫项目文件就建立好了。

$ scrapy startproject helloworld 
New Scrapy project 'helloworld', using template directory '/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/templates/project', created in:
    /Users/zhouruiyong/Desktop/python/helloworld

You can start your first spider with:
    cd helloworld
    scrapy genspider example example.com

关于scrapy startproject 的命令，还有一些其他附加操作。可以通过
scrapy startproject -h
进行查询

$ scrapy startproject -h
Usage
=====
  scrapy startproject <project_name> [project_dir]

Create new project

Options
=======
--help, -h              show this help message and exit

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure

—logfile ==FILE参数主要用来指定日志文件，FILE为指定的日志文件的地址。使用方法：

scrapy startproject —logfile=”路径相对地址文件” helloworld

—loglevel=LEVER, -L LEVEL主要是控制日志信息的等级。
CRITICAL发生最严重的错误
ERROR 发生了必须立即处理的错误
WARNING 出现了一些警告信息，即存在潜在的错误
INFO 输出一些提示信息 DEBUG
输出一些调试信息，常用与开发阶段。
使用方法： scrapy startproject —loglevel=DEBUG helloworld
—nolog参数可以控制不输出日志信息。

fetch命令

主要用来显示爬虫爬取的过程如：
scrapy fetch http://www.baidu.com
这里特别注意，如果是在scrapy项目之外调用如上命令，会使用scrapy默认的爬虫进行网页的爬取，如果是在项目里面，如上面的我们创建的helloworld项目，我们使用cd进入项目目录里，再调用scrapy fetch http://www.baidu.com，则是调用该项目的爬虫来进行网页的爬取。
在使用fetch命令的时候，也可以使用某些参数进行相应的控制。同样可以使用scrapy fetch -h列车所有可以使用的fetch参数。一些参数和scrapy startproject的参数一样，这边就不讲了。其中

—headers参数用来控制显示对应的爬虫爬取网页时候的头信息。
—spider=SPIDER参数用来控制使用那个爬虫。

runspider命令

可以让我们不依托Scrapy的爬虫项目，直接运行爬虫文件。这边了解即可。后面如果有用到再做详细的解释。

setting命令

可查看scrapy对应的配置信息,如果是在scrapy项目内使用settings命令，查看的是对应项目的配置信息，在项目外，则查看的是scrapy默认的配置信息。对于scrapy项目里面，比如我们上面创建的helloworld的项目，里面有个settings.py。可以通过 scrapy settings —get 名称(比如BOT_NAM) 查询对应字段的内容。

shell命令

该命令可以启动scrapy的交互终端（scrapy shell），该交互终端经常再开发以及调试的时候用到，可以在不启动scrapy爬虫的情况下，对网站响应进行调试，同样，也可以写一些python代码进行相应的测试。可以通过 scrapy shell 网址或者uri或者本地html地址 的命令格式读取文件内容，然后通过xpath进行内容读取。后面有用到会详细解释，现在做粗略了解。

version命令

查看版本信息

view命令

可以实现下载某个网页并用浏览器查看的功能。如scrapy view http://www.baidu.com

以上就是scrapy的全局命令。此外还有项目命令，这边就先不讲，后续会结合具体项目再做讲解。

欢迎关注本人公众号和小程序，谢谢
在这里插入图片描述

在这里插入图片描述