爬取动态页面2 - 代码天地

爬取动态页面2

其他 2019-03-21 23:51:18 阅读次数: 0

动态页面的爬取思路：

　　1. ajax -----数据放在 json 中，在里面是否有url

　　2. js 数据通过搜索原页面上的数据关键字：ctrl + f , 全局搜索关键字

例子：

开始网站 url = 'https://www.xuexi.cn/'

爬取的页面1:

url 1= 'https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html'

需求：爬取url1 所有新闻的详情页面

分析思路：图示

　　用 js 数据动态生成的思路：通过搜索原页面上的数据关键字：ctrl + f , 全局搜索关键字

爬取的页面2:

url 2= 'https://www.xuexi.cn/261c9a142ef8e6375ed554815a26d585/f2d8ff735982530b7a8c9bb90fa99f68.html'

需求：爬取url2 所有新闻的详情页面

分析思路：

　　先按思路，js 动态生成数据的思路，找，没找到在按ajax 动态生成数据的思路。

　　用 ajax动态生成的思路： ajax -----数据放在 json 中，在里面是否有数据。（此处为ajax）

图示:

代码：

import requests

分析之后得到获取数据的url地址： url1 文需求1 的数据地址，url2 为需求2 的数据获取地址。
url1 = 'https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/data018d244441062d8916dd472a4c6a0a0b.js'
url2 = 'https://www.xuexi.cn/lgdata/261c9a142ef8e6375ed554815a26d585/f2d8ff735982530b7a8c9bb90fa99f68.json'


headers={
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}

res1 = requests.get(url=url2,headers=headers)

res2 = requests.get(url=url2,headers=headers) 

print(res1.content.decode())

print(res2.content.decode())

猜你喜欢

转载自www.cnblogs.com/knighterrant/p/10575523.html

爬取动态页面2

Class 17 - 2 动态渲染页面爬取 — Splash

Python+Selenium爬取动态加载页面（2）

爬取动态页面原理

动态渲染页面爬取

scrapy爬取动态页面

爬虫之动态页面爬取

动态渲染页面爬取 ---Selenium的使用

爬取动态页面实践 | selenium | JavaScript

动态渲染页面爬取【selenium】

210304课爬取动态页面

java爬虫爬取动态页面记录

爬取ajax动态渲染页面

爬虫：动态页面爬取Selenium

python爬虫从小白到高手 Day2 动态页面的爬取

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）

python梳理爬虫思路：静态页面爬取 +动态页面爬取 + 需要登陆的页面爬取（实战应用）

爬取页面的封装函数2

Python爬虫之爬取动态页面数据

Scrapy爬取百度百聘动态页面

【代码】第7章动态渲染页面爬取

利用scrapy-splash爬取JS生成的动态页面

爬虫动态渲染页面爬取Selenium中级篇

python中如何爬取动态页面内容

scrapy框架使用splash渲染引擎爬取动态页面

Scrapy 框架-爬取JS生成的动态页面

爬虫之Selenium 动态渲染页面爬取

Python+Selenium爬取动态加载页面（1）

Ajax动态页面爬取的一个小练习

python--Selenium(动态渲染页面爬取）

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)