爬取《流浪地球》过程中遇到的反爬虫 - 代码天地

爬取《流浪地球》过程中遇到的反爬虫

其他 2019-03-06 17:00:53 阅读次数: 0

这两天写了一个爬虫，爬取豆瓣中《流浪地球》的影评，并分析这些影评。这篇文章我不讲如何爬取的，来说一说我在爬取的过程中遇到的反爬虫。

必要的请求头的字段

对于上面的每一个请求字段，把必要的加在请求头上，比如：referer，user-agent等。

用户登陆问题

刚开始，我认为豆瓣不需要登陆就能看到所有的评论，但是，在实际的操作过程中，如果你不登陆豆瓣网，那么每一页第10个影评你点击去必定是下面这样的：

会出现一个登陆界面，让你登陆。然后我就用自己的微信登陆，然后又把cookie加在了请求头里，我认为这样总该可以了吧！结果（并不是自己所以为的样子）

并不是每个影评的前端样式都一样

当我把自己登陆的cookie放到请求头里，我心想这次总该可以了吧。但是，爬到第二页就出了问题，我认为每一页的评论的前端样式都应该是一样的，豆瓣这个网站就是让你难受，我本来是想爬取用户的评分的，在第二页中，居然有用户没有评分，导致我的爬虫找不到那个节点，从而报错！！！！

然后我采用if条件过滤掉这种情况，我的爬虫才正常运行。可是又出问题了！！！

IP访问频率太高，把我的账号给封了

在我认为万事大吉的时候，意外又出现了，刚爬取一千多条数据，结果豆瓣因为我的爬虫访问频率太高，把我的账号都给封了，结果也爬不了了，然后我也不知道怎么办了（高手可以给小弟指点一二！！！）

总结

总而言之，这次爬取还是有收获的，知道了这些反爬虫的措施，下次在遇到自己心里就有信息来处理了。还有就是书上讲的毕竟是理论，并不是实际运行的效果，实践出真知，这句话一点没错，我们从实践中知道了自己掌握不好的地方，这条道路还长，继续努力！！！

猜你喜欢

转载自blog.csdn.net/yanzhiguo98/article/details/87951227

爬取《流浪地球》过程中遇到的反爬虫

当你在爬取数据的过程中，遇到反爬时，解决的思路是什么？

流浪地球影评爬取

爬取CVPR 2018过程中遇到的坑

爬虫过程中遇到的防爬措施

《流浪地球》影评数据爬取分析

python爬虫如何实现对大文件的爬取，以及在爬取过程中对暂停爬取，继续爬取，取消爬取等系列功能的实现！

python爬取《流浪地球》16w评论

爬取豆瓣影评，告诉你《流浪地球》在讲什么！

python学习笔记分享(三十六)网络爬虫(4)selenium实战之爬取豆瓣流浪地球影评

使用selenium爬取机构化的数据及过程中遇到的问题总结

爬虫过程和反爬

Python3-爬虫~selenium\phantomjs\爬取XX网页电影过程中向下滚动网页问题

爬虫过程中遇到的编码解码问题

python爬虫学习过程中遇到的痛点

【爬虫Practice】学习过程中遇到的问题

利用Python带领你爬取流浪地球评论，并写入数据库

Python爬取《流浪地球》豆瓣影评与数据分析可视化

《流浪地球》豆瓣热门影评爬虫

过程中遇到的问题

Python网络爬虫（七）了解爬取与反爬策略

【python】【爬虫】无反爬图片爬取

爬虫爬取方法分析与反爬虫策略

使用python爬取流浪地球影评并制作词云，看看别人都说了些说什么

《流浪地球》

Python爬取最新反爬虫汽车之家口碑

python爬取网站数据，如何绕过反爬虫策略

C#攻克反爬虫之代理IP爬取

【反爬虫】在阿里云服务器所搭建的个人博客中通过Nginx进行反爬虫测试：禁止Python爬虫直接爬取博客页面实战——以信息校验型User-Agent反爬虫为例

使用HealthKit过程中遇到的坑

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)