如何用Python爬取异步加载的网页？以京东商品评论为例！ - 代码天地

如何用Python爬取异步加载的网页？以京东商品评论为例！

其他 2020-08-03 21:25:23 阅读次数: 0

在用python爬取网页时，会遇到网页不是一次性全部加载的情况，这种网页会在某种操作后，才加载对应的部分，拿京东来说，点进商品页面，并不会直接加载评论部分内容，而是在点击“评论”标签后才会加载第一页评论的内容，点击“下一页”之后，才会加载第二页评论的内容。

对于这些异步加载的内容，直接爬取的方式是行不通的，所以要通过找到异步加载内容的url来实现内容爬取。

第一步，打开某一商品页面，打开开发者工具，进入到Network一栏。

第二步，点击网页中的商品评价，然后发现Network中会多出许多项。

第三步，依次点击Network中多出的项目，找出评论所在的位置。

第四步，右击这个部分的名称，依次选择Copy——Copy link address，得到“https://club.jd.com/comment/productPageComments.action？callback=fetchJSON_comment98&productId=12413062&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1”，这就是评论内容的url，改变“page=”后的数字，可以切换评论的不同页。打开复制的地址，出现以下页面，发现评论都在content的后边，于是就可以利用content定位来截取评论内容。

完整代码如下：

扫描二维码关注公众号，回复： 11495361 查看本文章

from requests_html import HTMLSession
import time

session = HTMLSession()

a = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=12413038&score=0&sortType=5&page='
b = '&pageSize=10&isShadowSku=0&fold=1'

for i in range(10):
    link = a+str(i)+b
    r = session.get(link)
    str_all = r.text
    end = 1
    for i in range(10):
        start = str_all.find('content',end)
        end = str_all.find(',',start)
        print(str_all[start+10:end-1])
    time.sleep(10)

源码获取加群：850591259

猜你喜欢

转载自blog.csdn.net/weixin_43881394/article/details/107729986

如何用Python爬取异步加载的网页？以京东商品评论为例！

看大神如何用python爬虫爬取京东商品评论

Python爬取京东商品评论

毕设二:python 爬取京东的商品评论

Python 爬取京东商品评论 + 词云展示

python json 爬京东商品评论

Python爬取商品评价-京东

爬取商品评论

Python 不用selenium 带你高效爬取京东商品评论

为避免双十一买到假货，Python多线程爬京东商品评论！

python爬取多页商品评论详解

Python爬虫：爬取京东商品评论(处理json) urllib3+bs4+sqlite3

爬取京东商品的评论

京东商品评论分析

毕设一:python 爬取苏宁的商品评论

scrapy 爬取天猫淘宝的某个商品评论

scrapy 爬取淘宝商品评论信息

java爬取商品评论，分词生成词云

爬取唯品会商品评论

爬取京东商品评价并生成词云

Python 京东商品评论词云展示

python爬取京东网页商品实例（一）

python京东商品爬取

Python爬取京东商品

Python实现通过ASIN爬取亚马逊产品评论

爬取Ajax动态加载网页--以美团为例

selenium爬取Ajax加载的网页（以微博为例）

Python爬取京东商品用户评论(索尼xba-n1ap)

用python的requests库爬取京东某商品的评论并存储到MongoDB

Python爬虫-爬取京东评论信息

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)