pyhton爬虫学习(十二):Scrapy的全局命令介绍

上一节讲了scrapy环境的安装,不清楚的可以先看一下 pyhton爬虫学习(十一):Scrapy的安装

这节开始scrapy常用的命令。可以通过scrapy -h查看常用的一些命令。这边主要介绍全局的命令。

startproject命令

对scrapy爬虫项目的创建,目前是通过命令创建。比如你有一个文件夹python,要在这个文件里面建一个名为helloworld的scrapy爬虫项目。 先用cd命令进入python文件里面,通过命令scrapy startproject helloworld,这个时候在python就多了一个helloworld,一个scrapy的爬虫项目文件就建立好了。

$ scrapy startproject helloworld 
New Scrapy project 'helloworld', using template directory '/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/templates/project', created in:
    /Users/zhouruiyong/Desktop/python/helloworld

You can start your first spider with:
    cd helloworld
    scrapy genspider example example.com

关于scrapy startproject 的命令,还有一些其他附加操作。可以通过
scrapy startproject -h
进行查询

$ scrapy startproject -h
Usage
=====
  scrapy startproject <project_name> [project_dir]

Create new project

Options
=======
--help, -h              show this help message and exit

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure
  • —logfile ==FILE参数主要用来指定日志文件,FILE为指定的日志文件的地址。 使用方法:
scrapy startproject —logfile=”路径相对地址文件” helloworld
  • —loglevel=LEVER, -L LEVEL主要是控制日志信息的等级。
    CRITICAL发生最严重的错误
    ERROR 发生了必须立即处理的错误
    WARNING 出现了一些警告信息,即存在潜在的错误
    INFO 输出一些提示信息 DEBUG
    输出一些调试信息,常用与开发阶段。
    使用方法: scrapy startproject —loglevel=DEBUG helloworld
    —nolog参数可以控制不输出日志信息。

fetch命令

主要用来显示爬虫爬取的过程 如:
scrapy fetch http://www.baidu.com
这里特别注意,如果是在scrapy项目之外调用如上命令,会使用scrapy默认的爬虫进行网页的爬取,如果是在项目里面,如上面的我们创建的helloworld项目,我们使用cd进入项目目录里,再调用scrapy fetch http://www.baidu.com,则是调用该项目的爬虫来进行网页的爬取。
在使用fetch命令的时候,也可以使用某些参数进行相应的控制。同样可以使用scrapy fetch -h列车所有可以使用的fetch参数。一些参数和scrapy startproject的参数一样,这边就不讲了。 其中

  • —headers参数用来控制显示对应的爬虫爬取网页时候的头信息。
  • —spider=SPIDER参数用来控制使用那个爬虫。

runspider命令

可以让我们不依托Scrapy的爬虫项目,直接运行爬虫文件。这边了解即可。后面如果有用到再做详细的解释。

setting命令

可查看scrapy对应的配置信息,如果是在scrapy项目内使用settings命令,查看的是对应项目的配置信息,在项目外,则查看的是scrapy默认的配置信息。对于scrapy项目里面,比如我们上面创建的helloworld的项目,里面有个settings.py。可以通过 scrapy settings —get 名称(比如BOT_NAM) 查询对应字段的内容。

shell命令

该命令可以启动scrapy的交互终端(scrapy shell),该交互终端经常再开发以及调试的时候用到,可以在不启动scrapy爬虫的情况下,对网站响应进行调试,同样,也可以写一些python代码进行相应的测试。 可以通过 scrapy shell 网址或者uri或者本地html地址 的命令格式读取文件内容,然后通过xpath进行内容读取。 后面有用到会详细解释,现在做粗略了解。

version命令

查看版本信息

view命令

可以实现下载某个网页并用浏览器查看的功能。 如scrapy view http://www.baidu.com

以上就是scrapy的全局命令。此外还有项目命令,这边就先不讲,后续会结合具体项目再做讲解。

欢迎关注本人公众号和小程序,谢谢
在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/stonezry/article/details/106230630
今日推荐