python爬取多页商品评论详解 - 代码天地

python爬取多页商品评论详解

企业开发 2023-04-08 02:13:33 阅读次数: 0

python爬取多页商品评论

目的：练手爬虫爬取商品评论，一是因为示例代码有问题正好重写功能，二是回顾一下发现这是python爬虫学习中很经典的一个场景，顺便把全流程记录下来供大家参考学习

目标界面

开发者工具找到评论所在界面代码中位置

但是查询发现经网页渲染后代码中不存在评论（顺便省的selenium再爬一遍）

那就得找找网页藏哪去了

继续在网络传输中找请求资源内容

小黑子，终于露出鸡脚了！

这里的反爬措施是用.action文件传输json对象数据报文从而避免源码中包含数据

找到其.action网址

剩下就是数据清洗筛选和一些逻辑处理了

本身.action传输的都是明文数据，效率起见，这里直接是拿requests来爬取，结果数据都没拿到

可能是某种接口反爬

换selenium试试

运行正常

稍微实验一下显然可得是靠最后的fold参数决定接口文件界面

完整爬取n页代码如下

from selenium import webdriver
import re
url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100000177770&score=0&sortType=5&pageSize=10&isShadowSku=0&fold=1&page='
rs_all = ''   #所有爬取界面源码整合
for i in range(8):   
    print("正在无界面循环爬取第 %d 页，请等待"%i)
    c_o = webdriver.ChromeOptions()
    c_o.add_argument('--headless')
    browser = webdriver.Chrome(options=c_o)  #无界面爬取ChromeOptions选项设置
    browser.get(url+str(i)) 
    data = browser.page_source  #获取每页源码并赋值
    rs_all += data   #n页叠加

print("9页资源已爬取完毕，开始正则提取有效数据")
import time
time.sleep(4)

p_ct = '"content":"(.*?)"'   #非贪婪匹配的正则表达提取评论
ct = re.findall(p_ct, rs_all)

for i in range(len(ct)):   #提取后以分点形式输出
    ct[i] = ct[i].replace(r'\n', '')
    print(str(i+1)+ '.'+ ct[i])

运行正常

猜你喜欢

转载自blog.csdn.net/NZXHJ/article/details/125940141

python爬取多页商品评论详解

Python爬取京东商品评论

爬取商品评论

毕设二:python 爬取京东的商品评论

Python 爬取京东商品评论 + 词云展示

python json 爬京东商品评论

Python爬取商品评价-京东

毕设一:python 爬取苏宁的商品评论

Python 不用selenium 带你高效爬取京东商品评论

看大神如何用python爬虫爬取京东商品评论

如何用Python爬取异步加载的网页？以京东商品评论为例！

scrapy 爬取天猫淘宝的某个商品评论

scrapy 爬取淘宝商品评论信息

java爬取商品评论，分词生成词云

爬取唯品会商品评论

Python爬虫：爬取京东商品评论(处理json) urllib3+bs4+sqlite3

Python实现通过ASIN爬取亚马逊产品评论

几行代码爬取某东商品评论并写入数据库做成词云

Python爬虫获得淘宝商品评论

为避免双十一买到假货，Python多线程爬京东商品评论！

爬取京东商品的评论

python爬取数据多页

爬取京东商品评价并生成词云

Python爬虫，抓取淘宝商品评论内容

Python爬虫，抓取淘宝商品评论内容!

Python 京东商品评论词云展示

用Python实现商品评论制作词云分析

淘宝商品评论接口

laravel商品评论api

商品评论分析2

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)