Scrapy可视化管理管理工具总结

版权声明:本文为博主原创文章,欢迎转载,请注明出处 https://blog.csdn.net/mouday/article/details/84926296

本文总结了与Scrapy框架相关的一些开源工具

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd

Scrapyd 是一个运行 Scrapy 爬虫程序的服务

pip install scrapyd

scrapyd  # 启动服务

环境测试: http://localhost:6800/
在这里插入图片描述

2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api

一个 Scrapyd API 的python封装

pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI

scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt

ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API

pip install scrapydart 

$ scrapydart  # 启动

web界面 http://localhost:6800
在这里插入图片描述

4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb

功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth

pip install scrapydweb

$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动

管理页面:http://127.0.0.1:5000

在这里插入图片描述

参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy

一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码

pip3 install gerapy

$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web界面: http://localhost:8000
在这里插入图片描述

参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架

6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具

pip install spiderkeeper

$ spiderkeeper  # 启动

web ui : http://localhost:5000
在这里插入图片描述

总结

分类 名称 简介
爬虫框架 Scrapy 爬虫程序
服务端 Scrapyd Scrapy爬虫管理程序
服务端 ScrapydArt 增强版的 Scrapyd
客户端 ScrapydAPI 对Scrapyd API的封装
客户端 ScrapydWeb 管理调度 Scrapyd
客户端 Gerapy 管理调度 Scrapyd
客户端 SpiderKeeper 管理调度 Scrapyd

猜你喜欢

转载自blog.csdn.net/mouday/article/details/84926296