python手机APP爬取百思不得姐APP数据

爬虫的抓包分析阶段

安装到模拟器内部,打开Fiddler,运行程序,看下图,左侧最后出现的链接,就是我们想要的了

想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!


得到待爬取连接如下,所有的request请求,注意到,并没有什么加密参数

GETs.budejie.com/v2/topic/li…HTTP/1.1ver: 8.0.1client: androidmarket: 360zhushouudid: 866174010820641mac: 9C:30:5B:38:35:2Fos: 4.4.2appname: budejievisiting:Referer:www.budejie.comt: 1547132330768Host:s.budejie.comConnection: Keep-AliveAccept-Encoding: gzip


去掉无用参数, 得到如下链接

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json 

剩下的就是分析了

分析页面规律,得到链接拼接方式

爬虫就是要找到链接的规律,下面是第一页和第二页的数据

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json

http://d.api.budejie.com/v2/topic/list/29/29082060-28984879/budejie-android-8.0.1/1544334121-25.json

提取公用部分d.api.budejie.com/v2/topic/li…{参数1}-{参数2}/budejie-android-8.0.1/{参数3}-25.json三个参数位置发生了改变还有两个数字,一个是29,这个目测应该是类别,一个是25,这个应该是每页显示的数据条数

那么我们看一下,第二个链接中参数1,2,3分别是怎么得到的就可以了,看一下第一页的返回数据


上图得到参数3的值

展开list看到第一项的id为29082060 OK,得到参数1的值了,最后一项肯定是参数2的值,那么我们找到对应参数之后剩下的就是编码了。

爬虫具体编码部分

依旧是你自己来写吧~任何一个模块或者爬虫框架都是很容易就可以实现的,重要的是我们抓到了对应链接就可以了。

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89183628