声明：本文只作学习研究，禁止用于非法用途，否则后果自负，如有侵权，请告知删除，谢谢！

项目场景：

当我们入手爬虫工作的时候，一开始可能就是几个爬虫，我们可以手动调度部署，日积月累后，可能从十个到一百个，当这100个爬虫完成之后，我们就要手动的将他们重新启动，这就很麻烦，而且你要是想看看他们的输出日志还要一个一个的找，想必这时候就少不了一款快速部署、任务调度和查看日志的工具，这里我们选择的是scrapyd部署工具+spiderkeeper可视化的爬虫管理UI来实现这个功能。

模块概述：

Scrapy：是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的程序框架。

安装：pip install scrapy

Scrapyd：是一种运行Scrapy爬虫的服务，它允许你使用HTTP JSON API部署Scrapy项目并控制其爬虫。

安装：pip install scrapyd

Scrapyd-Client：Scrapyd-client是Scrapyd客户端，允许您将项目部署到Scrapyd服务端。也可以生成egg文件。

安装：pip install scrapyd-client

Spiderkeeper：可视化的爬虫管理UI，可以设置定时运行，查看数据统计。

安装：pip install SpiderKeeper

解决方案：

1.这里新建一个scrapy爬虫项目 scrapy startproject myspider，再进入myspider目录创建爬虫scrapy genspider spider www.baidu.com

在这里插入图片描述

2.修改scrapy.cfg，在deploy后添加一个部署名称my

在这里插入图片描述

3.启动scrapyd

在这里插入图片描述

4.在myspider目录下上传我们的爬虫项目`scrapyd-deploy my -p myspider`

在这里插入图片描述

5.上传成功后就能看的status为OK，在执行一下爬虫`curl http://127.0.0.1:6800/schedule.json -d project=myspider -d spider=spider`

在这里插入图片描述

6.status显示OK表示运行成功，接着我们就要将它显示在spiderkeeper的UI上，启动spiderkeeper，监听http://localhost:6800 `spiderkeeper --server=http://localhost:6800`

在这里插入图片描述

7.启动之后访问http://服务器ip:5000即可打开Spiderkeeper管理页面, 账户密码默认都是admin。

在这里插入图片描述

8.点击Create Project创建项目，然后我们就要去生成egg文件 `scrapyd-deploy --build-egg output.egg`，显示红框内的信息就表示成功

在这里插入图片描述

9.然后我们上传egg文件

在这里插入图片描述

10.点击submit后，在点击project，选择我门刚创建的工程

在这里插入图片描述

Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫

声明：本文只作学习研究，禁止用于非法用途，否则后果自负，如有侵权，请告知删除，谢谢！

项目场景：

模块概述：

Scrapy：是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的程序框架。

Scrapyd：是一种运行Scrapy爬虫的服务，它允许你使用HTTP JSON API部署Scrapy项目并控制其爬虫。

Scrapyd-Client：Scrapyd-client是Scrapyd客户端，允许您将项目部署到Scrapyd服务端。也可以生成egg文件。

Spiderkeeper：可视化的爬虫管理UI，可以设置定时运行，查看数据统计。

解决方案：

1.这里新建一个scrapy爬虫项目 scrapy startproject myspider，再进入myspider目录创建爬虫scrapy genspider spider www.baidu.com

2.修改scrapy.cfg，在deploy后添加一个部署名称my

3.启动scrapyd

4.在myspider目录下上传我们的爬虫项目`scrapyd-deploy my -p myspider`

5.上传成功后就能看的status为OK，在执行一下爬虫`curl http://127.0.0.1:6800/schedule.json -d project=myspider -d spider=spider`

6.status显示OK表示运行成功，接着我们就要将它显示在spiderkeeper的UI上，启动spiderkeeper，监听http://localhost:6800 `spiderkeeper --server=http://localhost:6800`

7.启动之后访问http://服务器ip:5000即可打开Spiderkeeper管理页面, 账户密码默认都是admin。

8.点击Create Project创建项目，然后我们就要去生成egg文件 `scrapyd-deploy --build-egg output.egg`，显示红框内的信息就表示成功

9.然后我们上传egg文件

10.点击submit后，在点击project，选择我门刚创建的工程

总结

到此我们的scrapy项目就成功地部署上去了，如果后续你的scrapy爬虫代码更新之后你只需要重新上传一下爬虫到scrapyd即可`scrapyd-deploy 部署名称 -p 项目名称`

参考链接：https://zhuanlan.zhihu.com/p/63302475

猜你喜欢

Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫

声明：本文只作学习研究，禁止用于非法用途，否则后果自负，如有侵权，请告知删除，谢谢！

项目场景：

模块概述：

Scrapy：是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的程序框架。

Scrapyd：是一种运行Scrapy爬虫的服务，它允许你使用HTTP JSON API部署Scrapy项目并控制其爬虫。

Scrapyd-Client：Scrapyd-client是Scrapyd客户端，允许您将项目部署到Scrapyd服务端。也可以生成egg文件。

Spiderkeeper：可视化的爬虫管理UI，可以设置定时运行，查看数据统计。

解决方案：

1.这里新建一个scrapy爬虫项目 scrapy startproject myspider，再进入myspider目录创建爬虫scrapy genspider spider www.baidu.com

2.修改scrapy.cfg，在deploy后添加一个部署名称my

3.启动scrapyd

4.在myspider目录下上传我们的爬虫项目scrapyd-deploy my -p myspider

5.上传成功后就能看的status为OK，在执行一下爬虫curl http://127.0.0.1:6800/schedule.json -d project=myspider -d spider=spider

6.status显示OK表示运行成功，接着我们就要将它显示在spiderkeeper的UI上，启动spiderkeeper，监听http://localhost:6800 spiderkeeper --server=http://localhost:6800

7.启动之后访问http://服务器ip:5000即可打开Spiderkeeper管理页面, 账户密码默认都是admin。

8.点击Create Project创建项目，然后我们就要去生成egg文件 scrapyd-deploy --build-egg output.egg，显示红框内的信息就表示成功

9.然后我们上传egg文件

10.点击submit后，在点击project，选择我门刚创建的工程

总结

到此我们的scrapy项目就成功地部署上去了，如果后续你的scrapy爬虫代码更新之后你只需要重新上传一下爬虫到scrapyd即可scrapyd-deploy 部署名称 -p 项目名称

参考链接：https://zhuanlan.zhihu.com/p/63302475

猜你喜欢

4.在myspider目录下上传我们的爬虫项目`scrapyd-deploy my -p myspider`

5.上传成功后就能看的status为OK，在执行一下爬虫`curl http://127.0.0.1:6800/schedule.json -d project=myspider -d spider=spider`

6.status显示OK表示运行成功，接着我们就要将它显示在spiderkeeper的UI上，启动spiderkeeper，监听http://localhost:6800 `spiderkeeper --server=http://localhost:6800`

8.点击Create Project创建项目，然后我们就要去生成egg文件 `scrapyd-deploy --build-egg output.egg`，显示红框内的信息就表示成功

到此我们的scrapy项目就成功地部署上去了，如果后续你的scrapy爬虫代码更新之后你只需要重新上传一下爬虫到scrapyd即可`scrapyd-deploy 部署名称 -p 项目名称`