Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

点击它,再点击右边的【Cookies】就可以看到请求头里的 cookie 情况。

cookie分析

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

除了上面说到的两个 cookie ,其他的请求头参数可以参照手动转存时抓包的请求头。这两个 cookie 预留出来做参数的原因是 cookie 都是有生存周期的,过期了需要更新,不同的账号登录也有不同的 cookie 。

参数分析

接下来分析参数,点击【Cookies】右边的【Params】查看参数情况。如下:

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

爬取shareid、from、filelist,发送请求转存到网盘

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

以上面这个资源链接为例(随时可能被河蟹,但是没关系,其他链接的结构也是一样的),我们先用浏览器手动访问,F12 打开控制台先分析一下源码,看看我们要的资源信息在什么地方。控制台有搜索功能,直接搜 “shareid”。

定位到4个shareid,前三个与该资源无关,是其他分享资源,最后一个定位到该 html 文件的最后一个标签块里。双击后可以看到格式化后的 js 代码,可以发现我们要的信息全都在里边。如下节选:

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

可以看到这两行

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

yunData.FILEINFO 结构如下,你可以将它复制粘贴到json.cn里,可以看得更清晰。

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

清楚了这三个参数的位置,我们就可以用正则表达式进行提取了。代码如下:

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

 

爬取到了这三个参数,就可以调用之前的 transfer 方法进行转存了。.

进群:125240963即可获取源码下载地址哦!

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

猜你喜欢

转载自www.cnblogs.com/PY2578/p/9167407.html