MyEclipse下配置Heritrix

1 到SourceForge.net上去下载Heritrix包,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980下载heritrix-1.14.3-src包和heritrix-1.14.3包。 2 将下载的heritrix-1.14.3-src解压出来,自己新建一个项目文件夹,我这里建一个Heritrix文件夹(假如放到E盘下),依次加入如下文件: (1)将heritrix-1.14.3-src里的src下的con文件夹里的文件全部复制到Heritrix项目文件夹里。 (2)将heritrix-1.14.3-src里的src下的java里的全部文件复制到Heritrix项目文件夹里。 (3)将heritrix-1.14.3-src里的src下的resources里的全部文件复制到Heritrix项目文件夹里。 (4)将heritrix-1.14.3(这里注意啦,不是用heritrix-1.14.3-src里的webapps包,而是用heritrix-1.14.3它里面打好包的webapps包,若用heritrix-1.14.3-src里的webapps的话,运行webUI后会产生target文件夹,应该是生成的sevlet文件,一flush项目就看到出错的标记,所以不要用它的webapps)里的webapps目录复制到Heritrix项目文件夹里。 3 在MyEclipse里新建一个javaProject,选择从存在的项目来新建,选择E:\Heritrix,点击确定,将生成javaProject。这里生成的javaProject很多错误,因为是javaProject,它把放在项目下的文件夹都变成包的形式。 4 将lib下的所有包加入构建路径下,就可以将错误减少不少。 5 将complier设置为1.5,可能是它里面用到了1.5支持的老类。 6 修改项目根目录下的heritrix.properties属性文件: (1)heritrix.version = 1.14.3(自己的heritrix版本号) (2)heritrix.jobsdir = jobs(抓下来的文件存放的目录) (3)heritrix.cmdline.admin = admin:123456(登录的用户名和密码,用冒号隔开) (4)heritrix.cmdline.port = 8085(heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,为了不如Tomcat等的端口冲突,可以设置一个空闲的端口号给它) 7 运行包org.archive.crawler下Heritrix.java类,在控制台可以看到Heritrix打印出至版本号就说明开启成功了。 8 在浏览器里输入 http://localhost:8085便可以进行抓页面的工作了。

猜你喜欢

转载自nopainnogain.iteye.com/blog/645899
今日推荐