用一个小小小爬虫，爬取淘宝宝贝评价内容

其他 2018-12-26 00:21:17 阅读次数: 0

作为剁手族的成员、资深吃货之一的我，在网购各种各样的零食是非常频繁的，可是要在浩瀚的商品库中找到合适的宝贝，大多数情况下只能参考评论！为了解决这个麻烦，就用Python做了个抓取淘宝商品评论的小小爬虫。今天就把这个爬虫分享给大家！

用一个小小小爬虫，爬取淘宝宝贝评价内容

思路

我们就拿“德州扒鸡”做为参考目标吧~！如果想抓其他商品的话，自行更换目标即可！打开淘宝，搜索目标，随便点击一个商品进入,在点击累计评论，打开F12开发者工具——网络，先清除现有的所有内容，然后点击下一页评论，在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型，如下图所示

用一个小小小爬虫，爬取淘宝宝贝评价内容

这个html中就含有我们需要的内容，左键点击然后选择响应，就可以看到具体响应内容了！

用一个小小小爬虫，爬取淘宝宝贝评价内容

这里面是一大串包含我们需要的内容在内的源代码，如果大家有兴趣可以提取内容做成json数据，而我们这里只需要评论数据，所以，用正则匹配评论部分就可以了！

开始写代码

具体过程就赘述了，新建一个函数，接受店铺ID（唯一）作为参数，做一个无限循环来翻页，并以评论时间为判断是否重复，如果重复则跳出循环（return可以直接跳出循环），整个函数部分代码如下

用一个小小小爬虫，爬取淘宝宝贝评价内容

加入try是因为代码一直在抽风的跳出index错误,后续还可以改进！

作为一个爬虫爱好者，必然要加深抓取的广度的，试着将整个页面的店铺ID抓取出来！这次简单，直接抓到json数据，然后用正则匹配，放回列表，因为时间有限，没有研究出url翻页的依据，就只抓取了一页！

用一个小小小爬虫，爬取淘宝宝贝评价内容

然后开始写主函数，保存到文档！运行结果如下

用一个小小小爬虫，爬取淘宝宝贝评价内容

用一个小小小爬虫，爬取淘宝宝贝评价内容

emmm，看评论是可以入手的！哈哈！

用一个小小小爬虫，爬取淘宝宝贝评价内容

总结

这个爬虫平时拿来小玩一下是可以的，用来分析也行，但是请切记不要外传扩散，不然很容易进坑！另外淘宝的反爬其实也不是很难，比如上面的爬虫，并没有做反爬措施，大家可以拿这个来练练手，玩一玩，记得加入sleep就可以，不要给对方服务器造成压力为最好！希望这个小小爬虫能给你带来会心一笑。

写在最后

喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。小编在此推荐一个学习与交流Python学习的地方，如果有想学Python的小伙伴可以加群959997225，另外没有装Python环境的小伙伴也可以联系小编，小编这里有免费的环境提供给大家！

本文来自网络，如有侵权，请联系小编删除！

猜你喜欢

转载自blog.csdn.net/weixin_44020598/article/details/85217706

用一个小小小爬虫，爬取淘宝宝贝评价内容

pyhton3淘宝爬取评价内容

Python学习---爬取淘宝宝贝

一个“小小”的pagehelper

关于启动hadoop的一个小小小问题

数据库思想——给一个产品里面的两个商品评价，评价内容插入到对应的各个商品中

一个小小的练习

一个小小的逻辑题

一个小小的作业

第一个小小程序

怎样采集淘宝宝贝的用户评价信息

基于Node.js实现一个小小的爬虫

第一次用Python完成一个小小的游戏项目

用Html 和 Css来实现一个小小案例

用QT和sqlite做一个小小的进销存（1）

用python写一个小小的导dmp文件的脚本

python爬虫日志(6)小小实践-爬取煎蛋网图片

用Python构建一个简单的爬虫系统：爬取妹纸图片，建议收藏

爬虫用java实现一个简易爬取网页超链接的程序

关于oracle时间转换的一个小小疑问

一个小小的hibernate学习之作

一个小小的防盗链图片的filter

MINA的第一个小小的例子

一个小小程序员的世界

一个小小的C++游戏引擎

一个小小的时间工具类

AIDL 进程间通信的一个小小的总结

一个小小的JSON工具类

欢迎到来（一个小小的随记）

实现一个小小的聊天对话

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)