知乎爬虫-以天津大学热搜为例爬取恶评信息

一觉醒来,我天上了热搜,天津大学咋说都是我的母校,咋能让人这么诋毁,不说了,一早上撸起袖子就是干!

一开始想遍历Page,试着拉了一下,是Ajax异步(PS:异步渲染,不是翻页的那种),好吧!

直接抓包,如下的API映入了我的眼帘。

打开一看,妥妥的json数据(匿名用户没啥用,id号是唯一的,只要想查,对照知乎数据库就能查到)

根据上图框出的offset可以直接构造遍历进行爬取

当然了,可爱的知乎虽然采用异步Ajax,但是最后偏偏留了一个page,还贴心的把total数量告诉我了,无需自己构造。

话不多说,直接遍历就可以抓取所有答主的信息,发帖时间,发帖内容,有条件的再搞一个情感分析啥的,可以详见我上一条博客,中文情感分析这里我就不放源码了,会的人到这一步啥都明白了。

所有人都要为自己的言行承担责任,互联网并非法外之地

猜你喜欢

转载自blog.csdn.net/weixin_40539952/article/details/107440633
今日推荐