Python：模拟 Ajax 请求抓取今日头条街拍美图 - 代码天地

Python：模拟 Ajax 请求抓取今日头条街拍美图

编程语言 2019-05-14 21:01:05 阅读次数: 0

1.分析网页确定思路

首先我们打开头条街拍的页面，我们发现我们看到的详细页链接直接在源代码中并不能找到，于是我们就需要去查看我们的 ajax 请求，看看是不是通过 ajax 加载的，我们可以打开浏览器控制台，我们过滤 XHR 请求有了一些发现，如下图：

在 xhr 请求中 offset 为 0 的部分，页面中的 data 为 0 的数据部分清楚地地显示了我们想要查找的详细页的数据，然后随着我们滚动条的下拉，页面会不断发起 xhr 请求，offset 会随之不断的增大，每次增大的数目为 10 ，实际上是通过 ajax 去请求索引页，每次返回的 json 结果中有10条详细页的数据，这样我们就能不断在页面中获取到街拍新闻的信息。

有了街拍新闻，自然我们还要进入新闻中获取街拍的美图，我们看一下新闻内部的图片是怎么获取的，如下图所示：

很明显，街拍真正的图片的 URL 是通过网页中的 js 变量的方式获取的，我们考虑使用正则来获取，另外，页面第一个 title 标签里面有该详细页面的名称，我们可以使用 BeautifulSoup 来提取出来

思路梳理：

(1)使用 requests 库去去请求网站，并获取索引网页(ajax 请求的 url)返回的 json 代码

(2)从索引网页中提取出详细页面的 URL，并进一步抓取详细页的信息

(3)通过正则匹配详细页中的图片链接，并将其下载到本地，并将页面信息和图片的 URL 保存到本地的 MongoDB

(4)对多个索引页进行循环抓取，并开启多线程的方式提高效率

2.代码实现

config.py

spider.py

3.运行效果

猜你喜欢

转载自blog.csdn.net/fei347795790/article/details/90208297

Python：模拟 Ajax 请求抓取今日头条街拍美图

python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）

python实战笔记之（2）：分析Ajax请求抓取今日头条街拍美图

分析Ajax请求并抓取今日头条街拍美图

python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

ajax分析-今日头条街拍美图抓取

ajax动态抓取今日头条街拍美图

通过分析Ajax请求抓取【今日头条】“街拍”美图

爬虫学习：分析Ajax请求抓取今日头条街拍美图

分析Ajax请求并抓取今日头条街拍美图（2019.8最新）

python爬虫之分析Ajax信息爬取今日头条街拍美图

Python Spider 抓取今日头条街拍美图

分析Ajax请求抓取今日头条街拍图片

Python3网络爬虫实战-36、分析Ajax爬取今日头条街拍美图

【零基础学爬虫】分析Ajax，抓取今日头条街拍美图

分析Ajax爬取今日头条街拍美图

Ajax爬取今日头条街拍美图

分析Ajax请求并爬取下载今日头条街拍美图

python3网络爬虫学习第六章Ajax数据爬取（爬取今日头条街拍美图）

转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图

【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图

【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】

爬虫实战：要不是热爱学习，谁会爬小姐姐。分析Ajax来爬取今日头条街拍美图（python）

详解python爬取今日头条街拍美图

python爬虫之今日头条街拍美图

python：今日头条中街拍美图的爬取

Python 批量获取今日头条街拍美图

Ajax数据爬取（4）分析Ajax爬取今日头条街拍美图

芝麻HTTP：分析Ajax爬取今日头条街拍美图

通过分析AJAX抓取今日头条街拍数据

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)