Heritrix 3配置过程 - 代码天地

Heritrix 3配置过程

企业开发 2018-05-13 14:40:51 阅读次数: 0

1、下载Heritrix 3.1

Heritrix 3.1的下载地址是：http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/ 我把heritrix-3.1.0-dist.zip和heritrix-3.1.0-src.zip两个包都下载下来，二者都会用到。将这两个压缩包分别解压。

2、建立Eclipse项目

1）新建项目

2）添加库文件

在项目中建立一个lib目录，并将heritrix-3.1.0-dist.zip解压后的lib目录下的所有jar文件（heritrix- commons-3.1.0.jar，heritrix-engine-3.1.0.jar，heritrix-modules-3.1.0.jar随着代码的加入可以逐步删除）拷贝到项目的lib目录下。然后再项目属性--java Build path中将这些jar引用到项目中。

3）添加代码

将heritrix-3.1.0\engine\src\main\java（对应heritrix-engine-3.1.0.jar）添加到 Eclipse的src目录，此时Heritrix 3.1就可以运行了。为了看代码方便，还是将其他部分的代码都加入到项目，分别是：heritrix-3.1.0\commons\src\main \java目录（对应heritrix-commons-3.1.0.jar）和heritrix-3.1.0\modules\src\main \java目录（对应heritrix-modules-3.1.0.jar）。这样你就可以删除heritrix-commons- 3.1.0.jar，heritrix-engine-3.1.0.jar，heritrix-modules-3.1.0.jar三个包的引用，直接使用源代码运行。

3、运行Heritrix 3.1

Heritrix 3.1运行以后可以通过一个web服务器来管理他。但首先要将他运行起来。在org.archive.crawler有个带main函数的 Heritrix，启动它就可以将Heritrix3.1运行起来。但要设置启动参数-a admin:admin（输入启动账号），在Eclipse的 Run configuration中设置如下图：

然后运行Heritrix.java，如果一切正常你可以通过：https://localhost:8443访问Heritrix 3.1的管理网站。

不过这时系统里还一片空白，你需要建立一个网页抓取的任务（job）.

4、建立和配置抓取任务

登录管理控制台（用户名admin密码admin），在管理界面首页找到如下图这个位置：

输入一个名称（如myjob）,然后点击“Create”按钮。

这时候根据默认模版生成了一个抓取任务，但还不能抓取任何东西，我们需要通过配置文件的修改告诉服务器，我们要抓取什么。

在管理控制台的Job Directories中选择要配置的job（下图中myjob）

进入myjob的管理界面，如下图：

点击edit按钮，开始编辑配置文件，配置需要修改的地方如下图所示，先从简单的做起：

配置1和3的配置内容是一样的，operatorContactUrl写成http://localhost, jobName和description随便写点东西即可。

配置2则是配置搜索种子网站的列表，我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。

点击最上面的“Save changes"保存所有的配置文件。

这三个地方配置好就可以运行这个抓取任务试试了。

这时候需要执行如下操作（回到myjob的配置界面），让任务运行起来：

1）点击“build”编译当前的配置。

2）点击“launch”按钮运行当前任务至挂起状态，如果job已经运行，则先点击“checkpoint”按钮；

3）这时任务处于挂起状态，点击“unpause”即立即启动任务。

如果系统正常运行，会有如下类似提示信息：

在项目的jobs\myjob\20120623061610\warcs目录下有一个逐步增大的文件，这就是抓取下来的网页。

如果要看到每个抓取的页面，可以将配置文件的warcWriter这个bean的class改为 org.archive.modules.writer.MirrorWriterProcessor，这样就下载的网页是以镜像文件的形式保存在，一般存放在项目根目录下的mirror目录下。

猜你喜欢

转载自zaq369cde.iteye.com/blog/1910212

Heritrix 3配置过程

Eclipse 配置 Heritrix 1.14.4

Heritrix配置及扩展

MyEclipse下配置Heritrix

在Eclipse中配置Heritrix

Heritrix

How to install heritrix3

Heritrix在windows下的配置步骤。

Heritrix3 控制爬取链接

Heritrix maven

Heritrix简介

Heritrix源码分析(七) Heritrix总体介绍

Heritrix3.0教程(五) 配置文件crawler-beans.cxml介绍

Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

Heritrix源码分析(二) 配置文件order.xml介绍

Heritrix配置成eclipse项目时出现Failed to load properties file from filesystem or from cl

Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍

Heritrix学习及部署（三）

Heritrix学习及部署（一）

heritrix 3.2.0 -- 环境搭建

Heritrix 3.1.2搭建

Heritrix使用的初步总结

Heritrix学习及部署（二）

heritrix queue 分配策略

heritrix中的Frontier学习

Heritrix去重

heritrix 3.2.0 下载

lucene2.0+heritrix

heritrix下载，安装，使用

扩展和定制Heritrix

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)