网页特定数据采集

Web-Harvest是一个Java开源Web数据抽取工具。

 

它能够收集指定的Web页面并从这些页面中提取有用的数据。

 

其实现原理是,根据预先解释的配置文件用httpclient获取页面的全部内容(httpclient是一个开源的HTTP访问工具库),然后运用xpath、XQuery、正则表达式等这些技能来实现对text/xml的内容筛选操作,选取精确的数据。

 

前两年比较火的垂直搜索(比如:酷讯等)也是采用类似的原理实现的。

 

Web-Harvest运用 ,关键就是理解和解释配置文件,其他的就是考虑如何处理数据的Java代码。当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置。

 

 

--------------

如果采集的数据简单,可以直接使用httpclient进行HTTP访问,然后使用httpClear进行XML和HTML的解析,抽取自己需要的数据;

 

至于爬虫实现原理很简单,

1.访问一个页面,把所有的<a>标签都提取出来放入数组A

2.遍历数组A中的链接信息,并进行页面访问,重复步骤1

 

这个递归循环的过程就实现了爬虫的功能;这个步骤适合特定数据的采集(如天气信息,商品价格信息等),不适合全文检索,如果要实现全文搜索功能还是要使用Nutch(是一个基于Lucene,类似Google的完整网络搜索引擎解决方案)。

猜你喜欢

转载自json20080301.iteye.com/blog/1005876
今日推荐