反爬与反反爬 - 代码天地

反爬与反反爬

其他 2018-10-09 21:54:17 阅读次数: 0

第一阶段：

爬虫：用urllib或者requests库不断的遍历某页面，根据html来分析页面并存到数据库

反爬：发现某一时间段的请求量突增，分析日志发现都是统一IP，并且user-agent都是Python，基于这两点发现是非人类后直接在服务器上进行封杀

第二阶段：

爬虫：（1）user-agent模仿百度的；（2）IP每爬一段时间就换一个IP代理

反爬：在服务器上设置一个频率限制，每分钟超过多少次请求后再屏蔽IP，同时也考虑到可能是百度自己的爬虫，于是通过hostname检查一下IP是不是真的是百度，然后对百度自己家的设置一个白名单

第三阶段：

爬虫：设置随机多长时间爬一次，每爬多少次休息一下，然后每天在正常用户的访问高峰期进行爬，然后再隔一个长的时间段休息一下

反爬：设置在某一个时间段内访问超过多少次之后弹出验证码，没有正确输入的拉入黑名单

第四阶段：

爬虫：用图像识别等技术对验证码进行二值化，分调，模式训练之后，破解了验证码

反爬：数据并不直接进行渲染，由前端异步获取，通过js的加密生成动态的token，同时加密库再进行混淆

第五阶段：

爬虫：进行慢慢调试，然后找到加密的原理，或者通过selenium等技术模拟浏览器进行抓取

反爬：~~~~~~

猜你喜欢

转载自blog.csdn.net/yehuaner33/article/details/81023652

反爬与反反爬

反爬与反反爬

【爬虫】之反爬与反反爬

Python爬虫之路-反爬与反反爬

神仙打架！看反爬和反反爬如何博弈

想找点文献提高自己，还被反爬了，Python搞起，反爬之反反爬！

详解爬虫策略，反爬虫策略，反反爬爬虫策略

django 反爬实践与反反爬攻略，request甄别、接口加密、redis限频、字体反爬 ... ...

selenium反反爬

商标局网请收下我的膝盖-反爬与反反爬的奇技淫巧

Python笔记：网站反爬虫与反反爬策略和Ajax信息的爬取实践

爬虫的概念、类型、反爬机制和反反爬策略及robots.txt协议

签名验证反爬，反反爬第二篇博客，Python爬虫120例

反爬反反爬,总是找不到，拿来做个备份，方便后面查看

【那些反爬和反反爬】JA3指纹

【那些反爬与反反爬】网页中嵌入随机不可见字符的解决方法

用python爬取有道翻译遇到反爬，3分钟反反爬绕过其反爬

python反反爬，爬取猫眼评分

scrapy几种反反爬策略

详解cookie反反爬策略

网站有反爬机制你的爬虫功夫就不好使了？那是你不会反反爬！【Python解决网站的反爬机制战略总结】

反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

针对淘宝反selenium的反反爬措施详讲1-----pyautogui

针对淘宝反selenium的反反爬措施详讲2-----pyppeteer

有反爬机制就爬不了吗？那是你还不知道反反爬，道高一尺魔高一丈啊

scrapy架构介绍及几种反反爬

今日头条反反爬思路总结

爬虫反反爬学习资料整理

selenium + chrome 被检测，反反爬小记

关于图片懒加载的反反爬策略

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)