百度网盘关了外链采集接口,如何采集百度网盘外链? 采集各大网盘搜索引擎

演示:文件搜wjsou.com 数据采集于各大网盘搜索引擎,并删去失效的。

1.使用谷歌自动义搜索。但谷歌咱访问不了。

2.但有些人能访问,VPN或在国外等,这些网盘搜索引擎有钱搞,那我就采集他们网站的。通过爬虫爬各大网盘搜索引擎。

3.通过爬虫爬其它大量分享的。


下面就来试试

1.获得搜索关键词:通过百度风云排行榜获得,还可以通过各大网盘搜索引擎的首页获得。

2.各大网盘搜索引擎为了SEO,一般加几个子网面。但都有固定的结构,这样就好办了。

3.通过最终网盘链接页提取数据。文件名,链接,文件大小,文件类型,分享时间,是否有效等



倒着来说

一.通过最终网盘链接页提取数据。

1.提取:文件名

要采集的示例:https://pan.baidu.com/share/link?uk=2433762860&shareid=2999758878

源码:右键查看源码

文件名name 正则表达式:<title>(?<name>.*)_免费高速下载\|百度网盘-分享无限制</title> 

说明链接是有效的。


发现源码里没有文件大小,那应该是动态获得的。百度网盘10万次每天就会封IP,第二天也不能访问。



二.通过倒数第二链接页提取数据。

1.提取:文件名
示例:http://www.pansoso.com/?a=url&u=aHR0cDovL3Bhbi5iYWlkdS5jb20vc2hhcmUvbGluaz91az01OTAyMDczODcmc2hhcmVpZD0zMTYxNDEyMjc2&t=MzYw5rqQ56CBLnppcA==&s=5rqQ56CB
正则表达式:(?<=<title>).*?(?=下载_网盘下载_盘搜搜</title>)
结果:360源码.zip


2.提取:文件链接
示例:view-source:http://www.pansoso.com/?a=url&u=aHR0cDovL3Bhbi5iYWlkdS5jb20vc2hhcmUvbGluaz91az01OTAyMDczODcmc2hhcmVpZD0zMTYxNDEyMjc2&t=MzYw5rqQ56CBLnppcA==&s=5rqQ56CB
正则表达式:(?<=href=")(http|https)://(pan|yun)\.baidu\.com/.*?(?=")

结果:http://pan.baidu.com/share/link?uk=590207387&shareid=3161412276


三.通过搜索结果页提取数据。http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
<div class="des">文件名:[动画]灵.域5 , 文件大小:1KB , 分享时间:2017-10-31 , 下载次数:3次 ... 登录百度云网盘客户端下载送2T空间 电脑版</div>


<a href="/?a=url&amp;u=aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3NoYXJlL2xpbms@c2hhcmVpZD0zNzU0NTIyMzQmdWs9MzQxMTA2OTc2OQ==&amp;t=W!WKqOeUu13ngbUu5Z!fNQ==&amp;s=54G15Z!f" target="_blank" rel="nofollow" id="pss-8cfbeff2">[动画]灵.域5</a>


1.提取:文件名
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=文件名:).*?(?= ,)   某某之后,非换行,尽可能少,某某之前
结果:[动画]灵.域5


2.提取:通向文件地址的链接
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:/?a=url.*?(?=")
结果:a=url&u=aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3NoYXJlL2xpbms@c2hhcmVpZD0zNzU0NTIyMzQmdWs9MzQxMTA2OTc2OQ==&t=W!WKqOeUu13ngbUu5Z!fNQ==&s=54G15Z!f


3.提取:文件大小
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=文件大小:).*?(?= ,)
结果:1KB


4.提取:分享时间
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=分享时间:).*?(?= ,)
结果:2017-10-31


5.提取:下载次数
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=下载次数:).*?(?=次)
结果:3









猜你喜欢

转载自blog.csdn.net/chenhao0568/article/details/78899392
今日推荐