使用Gecco主题爬虫爬取旅游折扣信息

        Gecco爬虫已经开发有一个多月了,爬虫的大部分功能已经实现,是需要检验一下爬虫的时候了。

        之所以开发Gecco这样的一个爬虫,也是我之前开发了不少类似的应用有关,这些应用都需要爬取其他网站的信息,并且结构化后加以利用。

        比如之前开发过一个比价网站,将京东、苏宁、新蛋、易迅等电商的商品信息抓下来进行站内和站外的比价,如今这样的应用已经十分普及,相信大家都装过惠惠购物助手,就类似这样的;

        之后又开发过一个折扣信息的聚合网站,将什么值得买之类的折扣信息发布平台的信息聚合起来,方便查找;

        如今的网站和应用开发或多或少都涉及到爬虫、接口,Gecco除了支持爬取Html网页外,还可以用于json接口的请求和和处理。

        Gecco将内容下载、内容抽取、结构化数据的业务处理分离开,简化或者屏蔽内容下载、内容抽取方面的开发工作量,让开发人员专注于业务逻辑的处理,能有效的提高开发效率。

        那Gecco到底是不是一个合格的爬虫呢,之前开发了一个旅游折扣信息聚合的网站:http://www.sjnmd.com.cn/(网站本身太糙,忍忍)。这次用Gecco将抓取部分重写,已经部署上线,利用这个网站可以检验单机版的爬虫在开发效率上、运行稳定性、抓取成功率、内存占用率、可维护性等各个方面的能力。

        Gecco下一步的开发任务将会集中在监控上,一个没有监控的软件就好比是一个人在裸奔……这话谁说的来着。

猜你喜欢

转载自xtuhcy.iteye.com/blog/2275862