破解微博指数限制,爬取数据



 

 
1、最近要爬去微博指数的数据,查看ajax请求,发现他的参数是动态数字变换,初步排除这是一个假参数。


 

2、查看他的头协议,也没有发现什么异常,他是怎样把关键字传过去呢? 我就很郁闷了。怪不得大家都喜欢谷歌浏览器啊!无意中使用 copy as cURL或者copy as bURL  查看到了他的详细的请求信息。里面居然有上一个页面的请求链接,wname= 是我查询的的词汇,我到现在终于明白了,他是通过上一个请求的关键字查询的啊!
 


 

 
3、然后请求页面还是返回的 “csrf” 字符串,这是怎么回事呢?????? 想了半天是不是要把请求页面的cookies放到这一次请求中呢? 接着再试。里面没有cookies信息,到时有 set-Cookie , 这是什么东东啊! 既然只有set-Cookie 那就在请求中试试去, 把2个的value值拼接起来,放进去试试,没想到居然成功了。返回数据了。
 


 

  
在这里需要大家注意 主要获取一个查询页面的响应头信息 把cookies 放到 下面请求里面 就可以了。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

猜你喜欢

转载自dichaoying.iteye.com/blog/2311537