Python学习 Day56 动态网页爬虫 01

其他 2021-11-21 12:13:39 阅读次数: 0

动态网页爬虫

一、相关概念

1.动态网页

在网页不重新加载的情况下，通过Ajax技术动态更新网站真难过的局部数据
如王者荣耀的高清壁纸，在换页的过程当中，URL没有发生改变，但是壁纸动态的更改了

2.Ajax（Asynchronouse JavaScript And XML）

异步JavaScript和XML
前端与服务器进行少量数据交换，Ajax可以使用网页实现异步更新
这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新
传统的网页，如果需要更新内容，必须重新加载整个网页页面。因为传统网页在传输数据格式方向时，使用的是XML语法
而现在数据交互时通常使用的是JSON
使用Ajax加载的数据，即使用了JS，将数据渲染到了浏览器中
在右键–>查看网页源代码还是不能看到Ajax加载的数据，只能看到使用这个URL加载的HTML代码

在这里插入图片描述
打卡数据链接得到的数据是JSON数据格式

二、动态网页爬虫的解决方案

1.直接分析Ajax调用的接口（数据所在URL），然后通过代码请求这个接口
2.使用selenium+Chromediver模拟浏览器行为获取数据

方式	优点	缺点
分析接口	直接请求数据，无需解析；代码量少，性能高	分析接口较复杂，特别是一些通过JS混淆的接口，需要一定的JS知识；容易被监测到是爬虫
selenium	直接模拟浏览器的行为，浏览器能请求到的，使用selenium也能请求到；爬虫更稳定	代码量多，性能低

分析URL时，去掉其中的“jsoncallback=XX”参数即可得到符合要求的JSON数据格式
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/ShengXIABai/article/details/118421162

Python学习 Day56 动态网页爬虫 01

Python学习 Day56 selenium 02

python基础一 day56

【爬虫学习笔记day56】6.6. scrapy-redis的官方文档源码分析参考：Scheduler

python全栈学习--day56(jquery--ajax)

python 爬虫 selenuim获取动态网页

Python动态网页爬虫技术

爬虫学习----动态网页爬取

python爬虫进阶（二）：动态网页爬虫

Python动态网页爬虫-----动态网页真实地址破解原理

【100天精通Python】Day56：Python 数据分析_Pandas数据清洗和处理

python+selenium爬虫抓取动态网页

python爬虫笔记（五）——动态网页处理（下篇）

python爬虫基础（10：动态网页之Ajax）

python爬虫基础（11：动态网页之使用selenium）

Python爬虫 - 解决动态网页信息抓取问题

Python爬虫使用selenium处理动态网页

Python爬虫从入门到精通（五）动态网页的挑战

如何使用 Python 爬虫抓取动态网页数据

Python使用爬虫ip爬取动态网页

Python全栈--Day56 文档操作, 事件相关及批量操作

Python笔记day56（jQuery）|文档处理、事件、动画效果、each、data

【前端学习笔记day56】9.4. 获取元素方法一

Django学习 day56之Django第二日

Java学习笔记-Day56 MVC模式、EL和JSTL

python爬虫Day 01

day56

动态网站开发学习笔记01：网页开发基础

100天搞定机器学习|Day56 随机森林工作原理及调参实战（信用卡欺诈预测）

python学习笔记之网络爬虫(八) 静态网页和动态网页爬取(1)静态网页爬取

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)