java语言实现的WEB爬虫平台

概 述

爬虫平台
一个java语言实现的WEB爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫。

主要功能

功能特性
1、支持css选择器、正则提取
2、支持JSON/XML格式
3、支持Xpath/JsonPath提取
4、支持多数据源、SQL select/insert/update/delete
5、支持爬取JS动态渲染的页面
6、支持代理
7、支持二进制格式
8、支持保存/读取文件(csv、xls、jpg等)
9、常用字符串、日期、文件、加解密、随机等函数
10、支持流程嵌套
11、支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
12、支持HTTP接口

安装部署

一、准备环境

1、安装JDK
2、安装MYSQl数据库服务器,建议使用5.7版本
3、安装maven3.0服务

二、运行项目

1、前往码云下载页面(https://gitee.com/jmxd/spider-flow)下载解压到工作目录
2、设置Eclipse仓库,菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件,然后点Apply,在点OK
3、导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮,选择工作目录,然后点击Finish按钮,即可导入成功
4、导入数据库,基础表:spider-flow/db/spiderflow.sql
5、打开并运行org.spiderflow.SpiderApplication.java
6、打开浏览器,输入(http://localhost:8088/)

三、引入插件

1、首先把需要的插件下载到本地并导入到工作空间或安装到maven库
2、在spider-flow/spider-flow-web/pom.xml中引入插件

读者福利

感谢你看到了这里!
我这边整理很多2021最新Java面试题(含答案)和Java学习笔记,如下图
在这里插入图片描述

上述的面试题答案小编都整理成文档笔记。 同时也还整理了一些面试资料&最新2021收集的一些大厂的面试真题(都整理成文档,小部分截图)免费分享给大家,有需要的可以 点击进入暗号:CSDN!免费分享~

如果喜欢本篇文章,欢迎转发、点赞。

记得关注我!

猜你喜欢

转载自blog.csdn.net/weixin_49527334/article/details/114546591
今日推荐