行业垂直搜索引擎网页抓取项目

公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。
(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
(3) 系统最好用Java开发,可以使用HttpClient, Nutch, Heritrix等一些开源软件。需要提供能维护的、可读的源代码;
(4) 系统要求在一周内要遍历所有给定的网址,搜索速度要求能够接受。并且系统能够根据我们提供的用户名和口令自动登录某些网站进行有目的的抓取,要支持https及其他协议;要求支持英文和汉语及其它语言。
(5) 开发费用12000元,按照项目进展程度支付。

猜你喜欢

转载自carlwu.iteye.com/blog/2061921