Crawler 不需要写代码的爬虫不需要写正则的爬虫

其他 2018-05-06 22:49:14 阅读次数: 5

Crawler V1.0.0

代码还没有优化
框架结构很简单
部分功能需要你们给我需求，我后期添加测试

操作指南

命令：java -jar Crawler.jar -[option]

    -v  爬虫的版本信息

    -h  爬虫的帮助文档

    -ct [url]  爬虫爬取一个网站测试 URL:测试的URL地址

    -cw [url] [k,v] 测试信息抽取 | URL:测试的URL | [k,v] title,div[class=title] 如果有多个参数,使用#隔开

    -ci [urllist] [k,v] <InputResult> 把抽取的信息规则保存xml中,可以使用SQL工具的导入向导导入到数据库或者转成其他格式| <InputResult> 保存结
果目录

    -cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,可以用ci进行深入爬取

E.g 例子

1、-ci URL文件爬虫规则输出路径

URL文件

2、执行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml

执行结果

然后我们可以使用SQL导入向导，用xml导入的方式,然后又可以转换为XML、TXT、EXCEL、WORD等多种格式。Navicat工具等

3、-cl命令就是用来生成urllist.txt 然后执行ci命令即可

我的邮箱[email protected] BUG直接ISS或者邮件,你把你的需求告诉我,我来完善,我自己手头有一堆还没完善。

已经完成的:

1、URL格式化,部分网站的URL以"/" "./" "../" "//" 这些已经解决了

2、HTTP代理接口,有了还没有加

3、自定义UA和Cookie登录也有了，没有加

4、JDBC之前有,感觉没有xml导入的快，是个累赘删除了

5、预留了个性化工具,批量提取EMail、QQ、手机号等

6、给SQLMAP做了接口,可在后期实现自动化注入测试和XSS测试

7、可以给Nutch结合上

8、还有问题给我提，我记记，然后慢慢完善。代码是开源 JavaGUI你懂

PS：使用者必须要有Java运行时环境

现在的功能可与Shell DOS命令结合：定时爬虫、分布式爬虫，可以自由组合

OSchina:http://git.oschina.net/puguoan/Crawler

命令已经改变了许多，请看Git中的说明

猜你喜欢

转载自my.oschina.net/u/2311702/blog/645748

Crawler 不需要写代码的爬虫不需要写正则的爬虫

jmeter测试dubbo接口的插件，不需要写代码

我的代码很好，不需要写注释

爬虫crawler

不需要写Sql语句的Mybatis工具：Tkmybatis

你可能真的不需要写class组件了

spring data中的dao 大部分代码不需要写

不需要写代码，就可以做edgeAI了——NanoEdge AI Studio试用

不需要写代码，快速批量修改文件夹中图片的格式

实体类不需要写get、set方法的插件

eclipse安装lombok使得项目的JavaBean不需要写get set方法

相同和不相同的组都能合并，不需要写sql

jade直接写类似JavaScript语法的东西，不需要写script

ajax进行操作不需要写表单，例如修改密码操作

实体类如何不需要写set,get方法

实体类不需要写get、set方法（安装lombok插件）

HTML 轻松搞定轮播图，有手就行! 不需要写 CSS 哦！

python爬虫：不需要登录静态网页抓取

网页爬虫 mysh-crawler

[Java] 网络爬虫(Web Crawler)

Crawler - python常用爬虫框架

删除不需要的文件

你不需要 Kubernetes？

工作不需要忍受

NetworkManager需要与不需要

web自动化测试框架pystest，selenium结合python，测试人员不需要会代码，只需要写配置即可实现，并且方便懂代码的测试人员扩展

【零基础实战】免费建站，不需要域名，不需要服务器，不需要敲代码

springboot修改代码不需要重启配置

软件测试人员需不需要懂代码？

word里贴代码神器（不需要下载）

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)