一键采集全网80%以上的Discuz论坛数据

本文主要介绍“通用Discuz论坛采集爬虫”(以下简称“通用DZ爬虫”)的使用教程及注意事项。

Discuz论坛作为CMS网站的重要一员,在互联网上扮演着至关重要的角色,许多知名论坛都可以看到Discuz的影子,但是如此众多的Discuz论坛,要采集起来并非易事,如何一口吃掉这么大一块肥肉呢?

下面给你介绍一个特好用的通用Discuz爬虫吧~~

首先,进入“通用DZ爬虫”总览页,点击爬虫“应用设置”,配置爬虫。你可以“调整爬虫名称和描述”、“选择文件云托管方式”以及“设置代理IP种类、配置要采集的Discuz论坛网址、选择要爬取的论坛版块和需要采集的帖子回复数量等”,最后别忘了点“保存”。

然后,进入“通用DZ爬虫”总览页,点击“启动爬虫”,配置爬虫运行期间所使用的节点数,并选择是否设置定时任务后,启动爬虫,爬虫便开始爬取数据,过一会儿,你就能在“爬取结果”页查看爬到的论坛数据了。

当爬虫爬到数据后,你可以选择将数据“发布到数据库/网站/媒体”中,此外,你还可选择将数据“导出”。

“通用DZ爬虫”论坛数据导出示例展示,如下图所示:

目前,能支持采集这么多Discuz论坛的爬虫并不多,也只有少数平台(如,神箭手大数据平台)支持,你可以按需使用不同的平台~~

猜你喜欢

转载自blog.csdn.net/shenjianshou/article/details/81094128