Ajax数据爬取

其他 2018-09-24 05:37:04 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Yk_0311/article/details/82493336

前言

来源：《python3网络爬虫开发实战》
有时候我们在用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据后生成的结果，这些数据的来源有多种，
1.可能是通过Ajax加载的，
2.可能是包含在HTML文档中的，
3.也可能是经过JavaScript和特定算法计算后生成的。

什么是Ajax

Ajax，异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不刷新，页面链接不改变的情况下与服务器交换数据并更新部分网页的技术

比如百度搜索，在搜索框输入几个关键词，会发现下面会有一系列的文字
这里写图片描述

还有微博下拉会出现正在加载中，请稍后
这里写图片描述

这些都是Ajax加载的过程

基本原理

1.发送请求
2.解析内容
3.渲染网页

我们就是利用Python来模拟这个过程，我们会使用requests库来发送请求，然后再将返回内容进行解析。

Ajax分析方法

举个例子，使用谷歌浏览器
url=WEIBO_SECOND_PROFILE_WEIBO”>https://m.weibo.cn/p/2304131618051664-_WEIBO_SECOND_PROFILE_WEIBO
打开浏览器开发工具
到Networkk选项卡，使用XHR过滤工具
Ajax有特殊的请求类型，叫做xhr
这里写图片描述

点击一个xhr条目（Type=xhr），点击preview
这里写图片描述

可以看到相应内容是JSON格式的，可以使用requests的json方法直接将内容解析为JSON；

将微博页面往下拉，可以看到更多的页面被刷出，而且Ajax请求也一个个出来，这样子我们就可以捕获请求了
这里写图片描述

我们用requests来模拟请求，返回JSON格式的内容，然后对内容进行解析。

猜你喜欢

转载自blog.csdn.net/Yk_0311/article/details/82493336

Ajax数据爬取

爬取Ajax类型数据

Ajax数据爬取（2）什么是Ajax

pyspider框架之ajax数据爬取

day_5：Ajax数据爬取

Class 16 - 1 Ajax 数据爬取

爬虫1.5-ajax数据爬取

AJAX数据爬取基本认识及原理

python Ajax数据爬取简介

第6章 Ajax数据爬取

尝试Ajax数据爬取微博

029. (7.30) Ajax数据爬取

我要爬爬虫(9)-Ajax数据爬取

Ajax数据爬取（3）Ajax结果提取

Ajax数据爬取（4）分析Ajax爬取今日头条街拍美图

Ajax的爬取心得

爬虫(十)：AJAX、爬取AJAX数据一起学爬虫——如何爬取通过ajax加载数据的网站

python爬虫之爬取ajax数据方法

python | 爬虫笔记（六）- Ajax数据爬取

【Python爬虫学习笔记12】Ajax数据爬取简介

【代码】第6章 Ajax数据爬取

urllib:Post方式爬取AJAX加载的数据

爬虫实例利用Ajax爬取微博数据

JAVA爬虫框架WebMagic爬取ajax请求的页面数据

python爬虫13--Ajax数据爬取

python实例3.0——动态页面：Ajax数据爬取

python网络爬虫学习笔记（十一）：Ajax数据爬取

python爬虫之爬取案例网页ajax请求的数据

利用Ajax实现数据爬取------爬取微博主页

爬取微博（Ajax）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)