爬虫与反爬虫之-浏览器爬虫

为什么说是浏览器爬虫呢! 此方法适用于哪些场合呢!

因为此方法是完全利用js特性来做爬虫 适用于那些无验证码 ajax加载的

例如xx网站评论

HTML({
  onreadystatechange:function(xhr){
	  var i=xhr.xhr.responseURL.indexOf("http://hotels.ctrip.com/Domestic/tool/AjaxHotelCommentList.aspx");
	  if(i!=-1)
	  {
		  console.log("评论分页内容",xhr.xhr.responseText);
	  }
    
  }
})

我们hook了浏览器所有http通信 一般网站都会返回json一步解析 随心所欲,不过要保存到自己数据库和翻页要靠你自己动脑筋解决喽

输入图片说明

猜你喜欢

转载自my.oschina.net/KFS/blog/1801483