爬去知乎分析

目前还在进行阶段

我的目的是爬去知乎热榜五十的回答,分为只爬去静态返回的页面和爬去异步返回的数据。

首先开始查询知乎前五十需要登录,但是我并不想处理登录。分析一波:先用浏览器登录一下进去,记住密码,之后再进入页面知乎就可以,这是为什么?猜想可能是将密码保存在cookie里面的,于是f12在cookie里面看到如下信息,试一下将cookie的东西塞到请求里面,访问成功!!!

 之后进入问题链接后发现,又有错误,几经周折发现不用cookie也行了,估计是知乎后台现在不检测是否登录了。之后就是爬去了。下面分析异步返回的东西,几经周折找到如下链接https://www.zhihu.com/api/v4/questions/305708929/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics&limit=1&offset=6&platform=desktop&sort_by=default

发现有这几个参数,include,limit,offset,platform,sort_by;可见,后面limit是返回多少个,offset是第几页,sort_by是排序,platform是平台这些都没影响,但是include是关键了,删除include发现返回的数据没有答案,只有回答者信息问题,但是include我应该按照怎么样的规则添加?还有这段神秘代码有什么意义呢?分析了一下 ,就是这里面返回的类容包含哪些东西,所以复制下来就好,也可以找到只返回你需要的信息也行,经过试验2Ccontent是内容具体还有我试了以后加。

json返回的数据分析

1.返回的图片

可见这些是返回的图片链接,但是不能直接得到图片,需要在com/后面添加80/才能访问,有的图片又不用加,具体还有些什么情况之后遇到补充

2.返回的视频

这是知乎返回的视频链接,但无法直接得到视频链接但可以通过播放的到如下规律播放时会得到batch这段东西,具体是什么暂时不清楚,等以后学了视频播放在添加。

猜你喜欢

转载自blog.csdn.net/qq_36414969/article/details/85039649