Linux环境下使用scrapyd+spiderkeeper部署scrapy爬虫

声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢!

项目场景:

当我们入手爬虫工作的时候,一开始可能就是几个爬虫,我们可以手动调度部署,日积月累后,可能从十个到一百个,当这100个爬虫完成之后,我们就要手动的将他们重新启动,这就很麻烦,而且你要是想看看他们的输出日志还要一个一个的找,想必这时候就少不了一款快速部署、任务调度和查看日志的工具,这里我们选择的是scrapyd部署工具+spiderkeeper可视化的爬虫管理UI来实现这个功能。

模块概述:

Scrapy:是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的程序框架。

安装:pip install scrapy

Scrapyd:是一种运行Scrapy爬虫的服务,它允许你使用HTTP JSON API部署Scrapy项目并控制其爬虫。

安装:pip install scrapyd

Scrapyd-Client:Scrapyd-client是Scrapyd客户端,允许您将项目部署到Scrapyd服务端。也可以生成egg文件。

安装:pip install scrapyd-client

Spiderkeeper:可视化的爬虫管理UI,可以设置定时运行,查看数据统计。

安装:pip install SpiderKeeper


解决方案:


1.这里新建一个scrapy爬虫项目 scrapy startproject myspider,再进入myspider目录创建爬虫scrapy genspider spider www.baidu.com

在这里插入图片描述

2.修改scrapy.cfg,在deploy后添加一个部署名称my

在这里插入图片描述

3.启动scrapyd

在这里插入图片描述


4.在myspider目录下上传我们的爬虫项目scrapyd-deploy my -p myspider

在这里插入图片描述

5.上传成功后就能看的status为OK,在执行一下爬虫curl http://127.0.0.1:6800/schedule.json -d project=myspider -d spider=spider

在这里插入图片描述

6.status显示OK表示运行成功,接着我们就要将它显示在spiderkeeper的UI上,启动spiderkeeper,监听http://localhost:6800 spiderkeeper --server=http://localhost:6800

在这里插入图片描述

7.启动之后访问http://服务器ip:5000即可打开Spiderkeeper管理页面, 账户密码默认都是admin。

在这里插入图片描述

8.点击Create Project创建项目,然后我们就要去生成egg文件 scrapyd-deploy --build-egg output.egg,显示红框内的信息就表示成功

在这里插入图片描述

9.然后我们上传egg文件

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

10.点击submit后,在点击project,选择我门刚创建的工程

在这里插入图片描述

总结

到此我们的scrapy项目就成功地部署上去了,如果后续你的scrapy爬虫代码更新之后你只需要重新上传一下爬虫到scrapyd即可scrapyd-deploy 部署名称 -p 项目名称
参考链接:https://zhuanlan.zhihu.com/p/63302475

猜你喜欢

转载自blog.csdn.net/qq_26079939/article/details/108599062
今日推荐