六个Scrapy可视化管理工具总结

转载原文链接为: https://blog.csdn.net/mouday/article/details/84926296

本文总结了与Scrapy框架相关的一些开源工具

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd

Scrapyd 是一个运行 Scrapy 爬虫程序的服务

pip install scrapyd

scrapyd  # 启动服务

 环境测试: http://localhost:6800/  

2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api

一个 Scrapyd API 的python封装

pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI

scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt

ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API

pip install scrapydart 

$ scrapydart  # 启动

 web界面 http://localhost:6800

在这里插入图片描述

4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb

功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth

pip install scrapydweb

$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动

管理页面:http://127.0.0.1:5000

 在这里插入图片描述

参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy

一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码

pip3 install gerapy

$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web界面: http://localhost:8000
在这里插入图片描述

参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架

6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具

pip install spiderkeeper

$ spiderkeeper  # 启动

web ui : http://localhost:5000

web界面如图: 

                                         

发布了128 篇原创文章 · 获赞 95 · 访问量 35万+

猜你喜欢

转载自blog.csdn.net/qq_36853469/article/details/103461806
今日推荐