玩个爬虫

想玩个爬虫,爬些数据玩玩,不成想把自己玩“进去”了

想爬这个页面 http://vip.stock.finance.sina.com.cn/quotes_service/view/cn_bill_sum.php?num=100&page=1&sort=totalvolpct&asc=0&volume=200000&type=0&dpc=1

本以为用 HttpClient 直接爬链接,结果发现这个页面中,翻页数据压根就是动态赋值的,根本没有,那我根本无法获知总共有多少页数据,难不成从第一页一直翻页对比,如果与前一页不相同再入库?这不是扯吗,效率太低了;

于是从 HttpClient 追到 webKit  ,又从 webKit  追到 JxBrowser ,貌似都不行,有这么邪乎吗?

总是应该有解决方案的吧。

猜你喜欢

转载自www.cnblogs.com/alexgl2008/p/12193421.html
今日推荐