用一个小小小爬虫,爬取淘宝宝贝评价内容

作为剁手族的成员、资深吃货之一的我,在网购各种各样的零食是非常频繁的,可是要在浩瀚的商品库中找到合适的宝贝,大多数情况下只能参考评论!为了解决这个麻烦,就用Python做了个抓取淘宝商品评论的小小爬虫。今天就把这个爬虫分享给大家!

用一个小小小爬虫,爬取淘宝宝贝评价内容

思路

我们就拿“德州扒鸡”做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点击累计评论,打开F12开发者工具——网络,先清除现有的所有内容,然后点击下一页评论,在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型,如下图所示

用一个小小小爬虫,爬取淘宝宝贝评价内容

这个html中就含有我们需要的内容,左键点击然后选择响应,就可以看到具体响应内容了!

用一个小小小爬虫,爬取淘宝宝贝评价内容

这里面是一大串包含我们需要的内容在内的源代码,如果大家有兴趣可以提取内容做成json数据,而我们这里只需要评论数据,所以,用正则匹配评论部分就可以了!

开始写代码

具体过程就赘述了,新建一个函数,接受店铺ID(唯一)作为参数,做一个无限循环来翻页,并以评论时间为判断是否重复,如果重复则跳出循环(return可以直接跳出循环),整个函数部分代码如下

用一个小小小爬虫,爬取淘宝宝贝评价内容

加入try是因为代码一直在抽风的跳出index错误,后续还可以改进!

作为一个爬虫爱好者,必然要加深抓取的广度的,试着将整个页面的店铺ID抓取出来!这次简单,直接抓到json数据,然后用正则匹配,放回列表,因为时间有限,没有研究出url翻页的依据,就只抓取了一页!

用一个小小小爬虫,爬取淘宝宝贝评价内容

然后开始写主函数,保存到文档!运行结果如下

用一个小小小爬虫,爬取淘宝宝贝评价内容

用一个小小小爬虫,爬取淘宝宝贝评价内容

emmm,看评论是可以入手的!哈哈!

用一个小小小爬虫,爬取淘宝宝贝评价内容

总结

这个爬虫平时拿来小玩一下是可以的,用来分析也行,但是请切记不要外传扩散,不然很容易进坑!另外淘宝的反爬其实也不是很难,比如上面的爬虫,并没有做反爬措施,大家可以拿这个来练练手,玩一玩,记得加入sleep就可以,不要给对方服务器造成压力为最好!希望这个小小爬虫能给你带来会心一笑。

写在最后

喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。小编在此推荐一个学习与交流Python学习的地方,如果有想学Python的小伙伴可以加群959997225,另外没有装Python环境的小伙伴也可以联系小编,小编这里有免费的环境提供给大家!

本文来自网络,如有侵权,请联系小编删除!

猜你喜欢

转载自blog.csdn.net/weixin_44020598/article/details/85217706