python手机APP爬取百思不得姐APP数据

爬虫的抓包分析阶段

安装到模拟器内部，打开Fiddler，运行程序，看下图，左侧最后出现的链接，就是我们想要的了

想要学习Python？Python学习交流群：973783996满足你的需求，资料都已经上传群文件，可以自行下载！

得到待爬取连接如下,所有的request请求，注意到，并没有什么加密参数

GETs.budejie.com/v2/topic/li…HTTP/1.1ver: 8.0.1client: androidmarket: 360zhushouudid: 866174010820641mac: 9C:30:5B:38:35:2Fos: 4.4.2appname: budejievisiting:Referer:www.budejie.comt: 1547132330768Host:s.budejie.comConnection: Keep-AliveAccept-Encoding: gzip

去掉无用参数，得到如下链接

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json

剩下的就是分析了

分析页面规律，得到链接拼接方式

爬虫就是要找到链接的规律，下面是第一页和第二页的数据

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json

http://d.api.budejie.com/v2/topic/list/29/29082060-28984879/budejie-android-8.0.1/1544334121-25.json

提取公用部分d.api.budejie.com/v2/topic/li…{参数1}-{参数2}/budejie-android-8.0.1/{参数3}-25.json三个参数位置发生了改变还有两个数字，一个是29，这个目测应该是类别，一个是25，这个应该是每页显示的数据条数

那么我们看一下，第二个链接中参数1，2，3分别是怎么得到的就可以了，看一下第一页的返回数据

上图得到参数3的值

展开list看到第一项的id为29082060 OK，得到参数1的值了，最后一项肯定是参数2的值，那么我们找到对应参数之后剩下的就是编码了。

爬虫具体编码部分

依旧是你自己来写吧~任何一个模块或者爬虫框架都是很容易就可以实现的，重要的是我们抓到了对应链接就可以了。

python手机APP爬取百思不得姐APP数据

猜你喜欢