Gerapy管理分布式Scrapyd

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_1290259791/article/details/82913965

Gerapy管理分布式Scrapyd

Gerapy: 基于Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django和Vue.js的分布式爬虫管理框架地址

  1. 将命令对接图形界面,实现批量部署。
  2. 更方便控制、管理、实时查看结果。

关系: Gerapy和Scrapyd的关系就是,我们可以通过Gerapy中配置Scrapyd后,不实用命令,直接通过图形化界面开启爬虫。

1、安装

pip3 install gerapy

2、初始化环境

利用gerapy新建一个项目,会在本级目录下得到一个文件夹gerapy

gerapy init

进入改目录初始数据库,会生成一个SQLite数据库,数据库保存主机的配置信息和部署版本。

cd gerapy
gerapy migrate
➜  zhongan git:(master) ✗ cd gerapy
➜  gerapy git:(master) ✗ ls
db.sqlite3 projects

初始化数据库后有两个目录,其中空的projects文件夹,就是存放Scrapy目录的文件夹。

3、启动Gerapy

(.venv) ➜  gerapy git:(master) ✗ gerapy runserver
Performing system checks...

System check identified no issues (0 silenced).
September 27, 2018 - 09:39:13
Django version 2.1.1, using settings 'gerapy.server.server.settings'
Starting development server at http://127.0.0.1:8000/
Quit the server with CONTROL-C.

默认在8000端口开启Gerapy服务,浏览器访问http://localhost:8000

gerapy runserver 0.0.0.0:8888

或者配置主机和端口。

4、部署项目

我们将Scrapy项目放在gerapy/project目录下。

添加Scrapy远程服务,我们的scrapy项目发布到Scrapyd上面。

扫描二维码关注公众号,回复: 3518558 查看本文章

猜你喜欢

转载自blog.csdn.net/qq_1290259791/article/details/82913965