通过网上搜索,主要分为两类:
1)量小(指定url,适用于代购类网站):
主要技术思路:jtidy-->解析html网页成xml格式-->采用xpath和xslt--->解析出需要的内容
优点:针对不同的网页解析,只需要配置xslt模板,不需要更改程序
缺点:网页结构变化,xslt需要经常变;
2)爬虫(数据库级别网页):
可以使用Web-Harvest
通过网上搜索,主要分为两类:
1)量小(指定url,适用于代购类网站):
主要技术思路:jtidy-->解析html网页成xml格式-->采用xpath和xslt--->解析出需要的内容
优点:针对不同的网页解析,只需要配置xslt模板,不需要更改程序
缺点:网页结构变化,xslt需要经常变;
2)爬虫(数据库级别网页):
可以使用Web-Harvest