爬虫02_基于requests的动态加载数据的爬取 - 代码天地

爬虫02_基于requests的动态加载数据的爬取

其他 2020-04-24 11:02:51 阅读次数: 0

通过抓包工具，基于全局搜索，可以将动态加载数据的数据包定位到

捕获动态加载数据：

基于抓包工具进行全局搜索
定位到动态加载数据对应的数据包，从改数据包中就可以提取
- 1）请求的url
- 2）请求方式
- 3）请求携带的参数
- 4）看到响应数据
.json()方法：将获取到的响应中的字符串形式的json数据以字典或者列表形式返回

项目实战：

需求：豆瓣电影分类排行榜中动作电影的电影名称和评分的爬取，练习网址
项目代码

import requests
import os

url = 'https://movie.douban.com/j/chart/top_list'
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
}
params = {
    'type': '5',
'interval_id': '100:90',
'action': '',
'start': '0',
'limit': '5',
}
response = requests.get(url=url, params=params, headers=headers)

#.json()表示将获取的字符串形式的json数据序列化成字典或者列表
page_text = response.json()

#解析出电影的名称和评分
for movie in page_text:
    movie_name = movie['title']
    movie_socre = movie['score']
    print(movie_name, movie_socre)

思考：为什么基于抓包工具进行全局搜索，不一定100%可以定位到动态加载数据对应的数据包？
原因：如果动态加载的数据是经过加密处理的密文数据，全局搜索是搜不到的，需要前台进行解密，例如js加解密的破解…

我是那颗银弹

发布了38 篇原创文章 · 获赞 43 · 访问量 8万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_40272386/article/details/105458553

爬虫02_基于requests的动态加载数据的爬取

爬虫03_基于requests的分页数据的爬取

python爬虫爬取简单的动态数据-异步加载问题

爬取动态加载的数据

python爬虫爬取异步加载的数据

爬虫之异步爬取加载数据

爬虫动态爬取京东商品的数据

爬虫--selenuim和phantonJs处理网页动态加载数据的爬取

【爬虫】利用 selenium 爬取动态加载页面

爬取豆瓣电影数据（requests，基于lxml的BeautifulSoup，json）

数据爬取——requests库

Python爬虫爬取ajax动态加载页面——证监会法规爬取

爬虫 --- 02. 爬取图片,数据解析

TypeScript创建爬虫，爬取网站数据-02

python爬虫爬取招聘（ requests，BeautifulSoup）

Python3网络爬虫：requests爬取动态网页内容

Python爬虫之爬取动态页面数据

selenium在爬虫中的应用之动态数据爬取

doraemon的python 爬虫示例1（入门）动态数据的爬取

教你用Python爬取动态加载的数据

爬虫(十)：AJAX、爬取AJAX数据一起学爬虫——如何爬取通过ajax加载数据的网站

爬虫（requests）爬取数据爬到一半时乱码了的解决办法

04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

python的requests库构造的爬虫即不报错也不继续爬取数据的问题

python战反爬虫：爬取猫眼电影数据 (一）（Requests, BeautifulSoup, MySQLdb,re等库)

Python爬虫之Requests库爬取海量图片！数据都是钱啊

python爬虫爬取虎牙数据（简单利用requests库以及Beautifulsoup）

Python爬虫实战，requests+openpyxl模块，爬取小说数据并保存txt文档（附源码）

Python爬虫实战，requests+tqdm模块，爬取漫画数据（附源码）

Python爬虫实战，requests+xlwt模块，爬取螺蛳粉商品数据（附源码）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)