SeimiCrawler V2.0 发布，Java 爬虫框架

业界资讯 2018-06-25 06:43:04 阅读次数: 4

新版变动

完美支持SpringBoot，可以尽情的集成SpringBoot现有生态，demo参考
回调函数支持方法引用，设置起来更自然

    push(Request.build(s.toString(),Basic::getTitle));

非SpringBoot模式全局配置项通过SeimiConfig进行配置，包括 Redis集群信息，SeimiAgent信息等，SpringBoot模式则通过SpringBoot标准模式配置

常规模式：

SeimiConfig config = new SeimiConfig();
config.setSeimiAgentHost("127.0.0.1");
//config.redisSingleServer().setAddress("redis://127.0.0.1:6379");
Seimi s = new Seimi(config);
s.goRun("basic");

SpringBoot模式，在application.properties中配置

seimi.crawler.enabled=true
# 指定要发起start请求的crawler的name
seimi.crawler.names=basic,test

seimi.crawler.seimi-agent-host=xx
seimi.crawler.seimi-agent-port=xx

#开启分布式队列
seimi.crawler.enable-redisson-queue=true
#自定义bloomFilter预期插入次数，不设置用默认值 （）
#seimi.crawler.bloom-filter-expected-insertions=
#自定义bloomFilter预期的错误率，0.001为1000个允许有一个判断错误的。不设置用默认值（0.001）
#seimi.crawler.bloom-filter-false-probability=

默认的分布式队列改用Redisson实现，底层依旧为redis，去重引入BloomFilter以提高空间利用率，一个线上的BloomFilter调参模拟器地址
JDK要求 1.8+

猜你喜欢

转载自www.oschina.net/news/97373/seimicrawler-v2-0-released

SeimiCrawler V2.0 发布，Java 爬虫框架

Java爬虫框架——SeimiCrawler

Java分布式爬虫seimicrawler

【转载】seimicrawler爬虫

快嘉框架 v2.0 更新发布，J2EE 开发框架实例

Vuetify v2.0 发布，Vue.js 的 Material 组件框架

SeimiCrawler爬取B站视频（Java爬虫永不为奴）

ABCMS v2.0新闻发布系统上线啦！

YurunOAuthLogin v2.0 发布，支持 Swoole 协程

Calfbbs V2.0 正式发布，经典开源社区系统！

重磅：CMMI DEV V2.0发布！

DataWorks数据服务V2.0全新发布

kkfileview v2.0 发布，文件在线预览项目方案

米拓小程序 V2.0 版本发布

xrkmonitor v2.0 发布，字符云监控系统

go-charts v2.0 版本正式发布

英特尔发布 Open Image Denoise v2.0

Ndd v2.0 发布,终于等到了

Nim v2.0 正式发布，命令式编程语言

ABP框架v2.0 和 ABP商业版

Joda Time v2.0，强大的Java日期时间库

你应当知道的Java牛人 v2.0

java-jsTree通用的树生成代码v2.0

【转载】SeimiCrawler

四、利用SeimiCrawler爬虫框架和selenium自动化测试工具分别实现对网站的爬取

【Beta】“北航社团帮”发布声明——小程序v2.0与网页端v1.0

扒网站工具 v2.0 发布，发布模版计算工具等

Activiti工作流web设计器v2.0版发布预览

JuCheap V2.0响应式后台管理系统模板正式发布beta版本

Guns 旗舰版 v2.0 发布，做更简洁的管理系统

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)