网页数据抽取技术调研

通过网上搜索,主要分为两类:

1)量小(指定url,适用于代购类网站):

主要技术思路:jtidy-->解析html网页成xml格式-->采用xpath和xslt--->解析出需要的内容

优点:针对不同的网页解析,只需要配置xslt模板,不需要更改程序

缺点:网页结构变化,xslt需要经常变;


2)爬虫(数据库级别网页):

可以使用Web-Harvest




猜你喜欢

转载自blog.csdn.net/alen1985/article/details/17558751