HtmlExtractor 1.1 发布，网页信息抽取组件 - 代码天地

HtmlExtractor 1.1 发布，网页信息抽取组件

企业开发 2018-05-12 01:59:31 阅读次数: 0

HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。

HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。

在本次发布的1.1版本中，对API做了更合理的重构，并给出了详细的使用方法，除了抽取组件，还加入了网页抓取组件，能执行JS，支持动态渲染的页面等。

HtmlExtractor项目主页

猜你喜欢

转载自yangshangchuan.iteye.com/blog/2202864

HtmlExtractor 1.1 发布，网页信息抽取组件

Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor

如何使用HtmlExtractor实现基于模板的网页结构化信息精准抽取?

JeeTemp 1.1 版发布

Bytebase 1.1 发布

通过HTMLExtractor向HTML要数据

1.1

1.1springMvc组件配置

VSeWSS 1.1 CTP版本发布

Windows Terminal Preview 1.1 发布

Vue，组件-组件的创建方式1.1

Nginx Unit 1.1 发布，修复多处 bug

JeeTemp 模板系统 1.1 版发布

jeeshop1.1 Beta版本发布

KiKaFramework V1.1发布

KaOS 2018.12 发布，全面支持 OpenSSL 1.1

Istio 1.1 正式版发布

国产开源 GUI 引擎 AWTK 1.1 发布

addrparser 1.1 发布，新增地图工具集

Cadmin 1.1 发布，新增 React 版前端

SuperTuxKart 1.1 发布，开源赛车游戏

sleuth v1.1 已经发布

CameraX 1.1 有哪些新的特性发布？

Serverpod 1.1 发布，Dart 编写的 Flutter 后端

Spring Modulith 1.1 GA & 1.0.3 发布

1.1 信息就是位+上下文

信息安全实践1.1(网络嗅探)

信息化知识-1.1信息化知识

xsequence分布式序列号生成组件1.1版本发布

Spread表格组件发布V1.1版本，支持最新SSJSON及Xamarin.iOS

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)