gecco 1.1.0稳定版发布,易用的轻量化爬虫

gecco 1.1.0稳定版发布了

1.1.0版本主要做了如下修改:

1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理
2.HttpClientDownloader支持类似12306网站非信任ssl证书
3.JsonBean支持嵌套解析
4.修复部分网站302无法跳转的bug
5.优化debug日志输出

 

gecco是一款易用的轻量化网络爬虫。十分的容易上手。

 

主要特征:

  1. 简单易用,使用jquery风格的选择器抽取元素
    2.支持页面中的异步ajax请求
    3.支持页面中的javascript变量抽取
    4.利用Redis实现分布式抓取,参考gecco-redis
    5.支持结合Spring开发业务逻辑,参考gecco-spring
    6.支持htmlunit扩展,参考gecco-htmlunit
    7.支持插件扩展机制
    8.支持下载时UserAgent随机选取
    9.支持下载代理服务器随机选取

猜你喜欢

转载自xtuhcy.iteye.com/blog/2293906